(4)).这样的修改可以显著提高学习速度和性能。5.1平稳市场案例我们首先在平稳市场环境中进行单形式数值模拟,其中价格过程根据常数u和σ的几何布朗运动(1)进行模拟。我们取T=1t=,表明MV问题是在一年的时间内考虑的,每天进行重新平衡。年化收益率和波动率的合理值将取自u组∈ {-50%, -30%, -10%、0%、10%、30%、50%}和σ∈ 分别为{10%、20%、30%、40%}。出于模拟目的,通常考虑“典型”股票的这些值(例如,见Hutchin-son等人(1994))。年化利率取ber=2%。我们考虑MV问题,从标准化初始财富x=1开始,终端财富的年化目标回报率为40%,因此z=1.4 in(3)。本文中考虑的所有模拟都将确定这些模型参数。对于EMV算法,我们采用总训练次数M=20000,样本量N=10来学习拉格朗日乘子w。温度参数λ=2。在本节的所有模拟中,收益率固定为α=0.05和ηθ=ηφ=0.0005。为了公平比较,我们为DDPG算法选择了相同的M和N。评论家网络有3个隐藏层,每个层有10、8、8个隐藏单元,演员网络有2个隐藏层,每个层有10、8个隐藏单元。评论家和演员的学习率为0.0001,与本节中的所有模拟相比,这是EMV的情况。replay Buffer的尺寸为80,而s ToCastic gradient的小批量尺寸为20。目标网络具有软更新参数τ=0.001。最后,我们采用OU过程来增加勘探噪声;详见Lillicrap et al.(2016)。