全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-6-14 13:59:26
一旦可以使用最新的价格时间序列获得u和σ的估计值,就可以使用classicalMV问题的最优分配(28)计算投资组合分配。另一种选择是基于Lillicrap et al.(2016)开发的深层确定性政策梯度(DDPG)方法,这里讨论的方法是基于市场具有正Sharperatio(召回(46))的假设。负夏普比的情况可以类似地处理。这已被视为比较解决连续控制问题的不同算法的基线方法。我们在各种模拟环境中进行比较,包括风险资产价格根据几何布朗运动(1)演变的静态环境和涉及漂移和波动参数的仓促因子建模的非平稳环境。我们还考虑了一种时间递减的探索情况,EMV可以通过在学习过程中的所有事件[0,T]上退火λ来轻松适应这种情况。在几乎所有的实验中,我们的EMV算法都大大优于其他两种方法。在下文中,我们简要介绍了另外两种方法。极大似然估计(MLE)在几何布朗运动模型(1)中,极大似然估计是估计参数u和σ的常用方法。我们请感兴趣的读者参阅Campbell等人(1997)第9.3.2节,以了解该方法的详细描述。在每个决策时间ti,基于p-rice的最近100个数据点计算u和σ的最大似然估计量。然后可以将极大似然估计替换为最优分配(28)和拉格朗日乘子的表达式w=zeρT-xeρT-1计算分配ui∈ 风险资产中的R。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:59:34
这种两阶段程序通常用于主动控制,其中第一阶段是识别,第二阶段是优化(例如,参见Chen和Guo(2012)、Kumar和Varaiya(2015))。实时估计程序还允许MLE适用于具有时变u和σ的非平稳市场。深度确定性政策梯度(DDPG)自Lillicrap等人(2016)引入DDPG方法以来,DDPG方法引起了极大的关注。它已被视为连续控制(行动)RL问题的最新基线方法,尽管是在离散时间内。DDPG使用深度神经网络为评论家和参与者学习确定性目标策略,并将外部噪声添加到鼓励探索中(例如,使用OU过程;详情见Lillicrap et al.(2016))。为了使DDPG适应经典MV设置(无熵正则化),我们进行以下调整。因为我们要学习的目标策略是(x)的确定函数-w)(见(28)),我们将向xi提供样品-w、 而不仅仅是xi,向ord er中的参与者网络输出分配ui∈ R、 这里,w是决策时间ti处的学习拉格朗日乘数,从相同的自校正方案(52)获得。这一修改还使我们能够通过拉格朗日乘数w将当前分配与之前获得的反馈回路中终端财富的充足平均数联系起来。原始DDPG的另一个修改是,我们包括了优先体验重播(Schaul et al.(2016)),而不是从重播功能中统一抽样体验。我们选择概率较高的终端体验来训练关键参与者网络,以说明MV问题没有运行成本,但只有(xT)给出的终端成本-w)-(w)-z) (参见。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:59:38
(4)).这样的修改可以显著提高学习速度和性能。5.1平稳市场案例我们首先在平稳市场环境中进行单形式数值模拟,其中价格过程根据常数u和σ的几何布朗运动(1)进行模拟。我们取T=1t=,表明MV问题是在一年的时间内考虑的,每天进行重新平衡。年化收益率和波动率的合理值将取自u组∈ {-50%, -30%, -10%、0%、10%、30%、50%}和σ∈ 分别为{10%、20%、30%、40%}。出于模拟目的,通常考虑“典型”股票的这些值(例如,见Hutchin-son等人(1994))。年化利率取ber=2%。我们考虑MV问题,从标准化初始财富x=1开始,终端财富的年化目标回报率为40%,因此z=1.4 in(3)。本文中考虑的所有模拟都将确定这些模型参数。对于EMV算法,我们采用总训练次数M=20000,样本量N=10来学习拉格朗日乘子w。温度参数λ=2。在本节的所有模拟中,收益率固定为α=0.05和ηθ=ηφ=0.0005。为了公平比较,我们为DDPG算法选择了相同的M和N。评论家网络有3个隐藏层,每个层有10、8、8个隐藏单元,演员网络有2个隐藏层,每个层有10、8个隐藏单元。评论家和演员的学习率为0.0001,与本节中的所有模拟相比,这是EMV的情况。replay Buffer的尺寸为80,而s ToCastic gradient的小批量尺寸为20。目标网络具有软更新参数τ=0.001。最后,我们采用OU过程来增加勘探噪声;详见Lillicrap et al.(2016)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:59:41
所有使用DDPG算法的模拟均在张量流中进行训练。我们在表1中总结了在与u和σ的不同组合相对应的市场情景下,EMV、MLE和DDPG三种方法的模拟结果。对于每个市场情景下的每种方法,我们给出了上2000年终端财富的年化样本平均值M和样本方差V,以及相应的年化夏普比率R=M-1.√五、 一些观察结果是正确的。首先,EMV算法在包括样本均值、样本方差和Sharperatio在内的投资结果统计方面,大大优于其他两种方法。事实上,基于Sharpe比率的比较,E MV在所有28个实验中都优于MLE,outper在总共28个实验中的23个形成了DDPG。请注意,DDPG在不同的市场情景中产生了相当不稳定的表现,一些样本averageterminal wealth低于0表示发生了破产。另一方面,EMValgorithm在所有实验中都实现了正的年化回报。如果考虑到训练时间(所有实验都是在MacBook Air笔记本电脑上进行的),EMV算法相对于深度学习DDPG算法的优势更为显著。事实上,DDPG涉及到对两个深度神经网络的广泛训练,使得其对高频投资组合再平衡和交易实践的吸引力降低。与DDPG相比,EMV的另一个优点是易于进行超参数调整。回想一下,在所有不同u和σ的实验中,EMV和DDPG的学习率分别是固定的。EMV算法的性能受固定学习率的影响较小,而DDPG算法则不受影响。事实上,DDPG在实践中以其臭名昭著的脆性和超参数敏感性而著称(例如,见Duan et al。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:59:49
(2016),Henderson et al.(2018)),其他针对连续控制问题的深度RL方法也分享了这些问题。由于在训练和决策过程中避免了深层神经网络,我们的EMV算法无法解决此类问题。MLE方法虽然没有任何学习率调整,但需要估计基础g参数u和σ。在表1所示的所有模拟中,σ的估计值相对接近其真实值,但漂移参数u无法准确估计。这与有充分记录的均值-模糊问题是一致的,当应用估计的u和σ来选择风险分配时,这反过来会导致终端财富的高方差(见表1)(28)。最后,我们在图1和图2中给出了三种方法的学习曲线。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群