乐观牛市或悲观熊市：适应性深度强化

1067

收藏 2022-06-24

英文标题：
《Optimistic Bull or Pessimistic Bear: Adaptive Deep Reinforcement
Learning for Stock Portfolio Allocation》
---
作者：
Xinyi Li, Yinchuan Li, Yuancheng Zhan, Xiao-Yang Liu
---
最新提交年份：
2019
---
英文摘要：
Portfolio allocation is crucial for investment companies. However, getting the best strategy in a complex and dynamic stock market is challenging. In this paper, we propose a novel Adaptive Deep Deterministic Reinforcement Learning scheme (Adaptive DDPG) for the portfolio allocation task, which incorporates optimistic or pessimistic deep reinforcement learning that is reflected in the influence from prediction errors. Dow Jones 30 component stocks are selected as our trading stocks and their daily prices are used as the training and testing data. We train the Adaptive DDPG agent and obtain a trading strategy. The Adaptive DDPG\'s performance is compared with the vanilla DDPG, Dow Jones Industrial Average index and the traditional min-variance and mean-variance portfolio allocation strategies. Adaptive DDPG outperforms the baselines in terms of the investment return and the Sharpe ratio.
---
中文摘要：
投资组合分配对投资公司至关重要。然而，在一个复杂而动态的股票市场中获得最佳策略是一项挑战。在本文中，我们针对投资组合分配任务提出了一种新的自适应深度确定性强化学习方案（Adaptive DDPG），该方案融合了乐观或悲观的深度强化学习，反映在预测误差的影响上。我们选择道琼斯30成分股作为交易股票，并将其每日价格作为培训和测试数据。我们训练了自适应DDPG代理，并获得了一个交易策略。将自适应DDPG的性能与香草DDPG、道琼斯工业平均指数以及传统的最小方差和均值方差投资组合分配策略进行了比较。自适应DDPG在投资回报和夏普比率方面优于基线。
---
分类信息：

一级分类：Quantitative Finance 数量金融学
二级分类：Statistical Finance 统计金融
分类描述：Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载：
-->

Optimistic_Bull_or_Pessimistic_Bear:_Adaptive_Deep_Reinforcement_Learning_for_St.pdf
大小:(1.97 MB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

kedemingshi

2022-6-24 07:05:42

乐观牛市或悲观熊市：股票投资组合配置的自适应深度强化学习李欣怡*1银川*2元城詹晓阳。然而，在复杂而动态的股票市场中获得最佳策略是一项挑战。在本文中，我们为投资组合分配任务提出了一种新的自适应深度确定性强化学习方案（Adaptive DDPG），该方案结合了乐观或悲观的深度强化学习，这种学习会受到预测错误的影响。我们选择道琼斯成分股票作为交易股票，并将其每日价格作为培训和测试数据。我们对自适应DDPGagent进行训练，得到一种交易策略。将自适应DDPG的性能与香草DDPG、道琼斯工业平均指数以及传统的最小方差和均值方差投资组合分配策略进行了比较。AdaptivedPG在投资回报和夏普比率方面优于基线。1、简介投资组合配置在金融市场中扮演着重要角色，这对于投资公司和定量分析师来说是基础和重要的。著名经济学家哈里·马科维茨（HarryMarkowitz）因其对金融经济学和企业金融的开创性理论贡献，获得了1990年诺贝尔经济学奖（Nobel Memorial Pricein Economic Sciences）。他的创新工作为现代投资组合理论（MPT）奠定了基础（Sharpe&Sharpe，1970），即构建一个投资组合，以最大化预期回报，同时最小化投资风险。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-24 07:05:45

投资组合理论研究如何*平等贡献纽约哥伦比亚大学统计系、纽约哥伦比亚大学电子工程系、美国信息与电子学院、北京理工大学、中国科学技术大学电子工程与信息科学系、中国合肥。通信收件人：尹传利<yl3923@columbia.edu>.《机器学习国际会议论文集》，加利福尼亚州长滩，PMLR 972019年。作者版权所有2019。“理性投资者”优化他们的投资组合。理性投资者可以在给定的预期风险水平下最大化预期回报，或者在给定的预期回报水平下最小化预期风险。投资的本质是利益与不确定性风险之间的脱节。投资组合配置的目标是，要么最大化夏普比率（平均回报率减去无风险回报率除以标准差），要么最小化风险，以表征这两个关键因素。平均值是指预期收益的加权平均值，权重是投资的分配比例。方差是指投资组合预期收益的方差。我们参考描述投资组合风险的。传统方法分两步进行，如（Markowitz，1952）所述。首先，计算股票的预期收益和股票价格的协方差矩阵。然后根据投资组合分配提取交易策略。然而，传统投资组合分配的挑战在于，如果管理者想要修改每次做出的决策和风险规避，那么该方法的实施可能会非常复杂。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-24 07:05:48

例如，投资公司渴望获得更高的回报，而风险在于金融市场在许多方面与现实世界不一致（Mangram，2013）。一般来说，一些关键的批评包括：投资者的非理性、高风险是股票投资组合配置的强制学习。作为马尔可夫决策过程（MDP）的Existi和ICML 2019DP算法的动态提交和格式化指令的使用限制了实际用途，因为它们是一个完美的模型，而且计算量也很大。与股票市场打交道时。强化方法使用函数逼近器和随机逼近来计算相关预期，可应用于具有大连续状态空间政策梯度（DDPG）的问题（Lillicrap et al.，2015）（Xiong et al.，2018）（Bao&Liu，2019），以在复杂和动态的股票市场中找到最佳交易策略。我们采用了DDGP算法，该算法由三个关键组件组成：（i）演员-评论家框架（Konda&Tsitsiklis，2000），用于模拟大型状态和动作空间；（ii）稳定培训过程的目标网络（Mnihet al.，2015）；（iii）经验重演，删除相关性方法和道琼斯工业平均指数。此外，所提出的深度强化学习方案考虑了市场指数的影响，这在实践中非常有意义。因为基于机器学习的方法比交易者基于市场的决策更客观、更定量。行为金融的理论研究表明，环境可以影响投资决策。正如行为金融所断言的那样，投资者可能乐观而悲观（Li等人，2014）。一般来说，熊市发生在经济衰退或萧条期间，当时悲观情绪不断出现。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-24 07:05:51

当证券价格的上涨速度超过总体平均利率时，就会出现牛市。牛市伴随着经济增长和投资者模型（Lefebvre et al.，2017），它可以从积极和消极的环境中学习不同的东西，可以计算选择不同选项（买入、持有和卖出）的回报。该模型可以在预测误差为正（实际奖励优于预期奖励）的情况下调整变化幅度，然后学习率会在一次试验到下一次试验之间调整幅度。该模型可以区分好的环境反馈和坏的环境反馈。此外，我们分别提出了乐观和悲观的反叛市场和牛市。本文提醒如下。第二部分介绍了股票组合配置的背景。在第3节中，我们驱动并指定了主要的DDPG算法和乐观-悲观深度强化学习。第四节介绍了数据预处理、实验装置以及自适应DDPG模型的性能。第5节给出了我们的结论。2、股票投资组合分配问题表在本节中，我们介绍了投资组合分配模型、市场环境对股票的影响以及股票交易策略。2.1. 投资组合分配2.1.1。投资组合配置本文讨论的投资组合理论是狭义定义的。在发达的证券市场，马科维茨的运动组合理论在实践中被证明是有效的，并被广泛应用于投资组合选择和资产配置。该理论包括两个重要部分：1）均值方差分析方法；2）投资组合效率更高。具体而言，优化的投资组合是以波动率为横坐标、收益率为纵坐标的二维平面，形成曲线。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-24 07:05:54

该曲线上有一个波动率最低的点，称为最小方差点（MVP）。Markowitz投资组合有效边界的部分，以及相应的投资组合称为有效投资组合。投资组合的有效前沿是一条单调递增的凸曲线。然而，由于传统的有效市场假说无法解释市场异常，投资组合理论受到了行为金融理论的挑战。2.1.2. 传统方法为不同风险水平的投资者提供了两种基本的投资组合分配方法。第一种方法是使用适合于偏好更高利差比率的投资者的平均值。第二种是最小方差投资组合，对投资者来说风险最低。均值方差法：Markowitz的工作（Sharpe&Sharpe，1970）表明，对投资者来说重要的不是证券本身的风险，而是证券对整个投资组合方差的贡献。这源于投资组合回报率方差（σp）与其组成证券回报率方差（σi，i=1，2，m）之间的关系。计算ICML 20190的年化收益率upand协方差提交和格式说明。0.30 0.35 0.40 0.45 0.50风险（预期波动率）-0.8-0.6-0.4-0.20.00.20.40.6预期收益最大夏普比率最小方差和投资组合有效前沿-2.0-1.5-1.0-0.50.00.51.0夏普比率0.15 0.20 0.25 0.30风险（预期波动率）0.40.60.81.21.41.6returnMaximum Sharpe Ratiomimum varianceRandom Portfolio有效前沿3.03.54.04.55.05.5图1的Sharpe Ratio。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

mingdashike22

2022-6-24 07:05:57

投资组合分配：（a）2009年5月1日至2009年3月31日（金融危机期间）；（b） 2009年1月4日至2009年6月25日（金融危机后）。矩阵∑pas如下所示：up=E（rp）=mXi=1wiE（ri）=WTu，（1）σp=mXi，j=1wiwjσi，j=WT∑pW，（2）其中mis是股票数量，wii是i thstock的权重，即投资组合百分比。σij是平均方差的协变量：wi∈ [0，0.2]，i=1。。。，m；mXi=1wi=1，（3），其中0和0.2是分配权重的下限和上限。我们的目标函数是找到使锐利率最高的分配（图1中的红星组合）。最小方差法：最小方差法与平均方差法相似方差最小的投资组合（图1中的绿星投资组合）。因此，持有证券的决定不应取决于其他股票，而应取决于投资者想要持有的其他股票。库存应作为agroup进行适当评估，而不是单独评估。2.1.3. 现代投资组合理论的局限性o假设1：投资者是理性的。MPT假设投资者是理性的，寻求最大化回报，同时最小化风险。这与参与羊群行为投资活动（Morien）的市场参与者的观察结果相矛盾。例如，投资者经常选择热门股，由于投机行为过度，市场往往经历繁荣或萧条。大型股票市场的趋势往往以非理性的小规模羊群行为开始和结束，这种行为是由泡沫中的贪婪情绪和崩溃中的恐惧所驱动的。即使羊群行为可能很少见，但这对整个真实市场都有重要影响假设2：市场是有效的。马科维茨理论假设市场完全有效（马科维茨，1952）。相比之下，它没有考虑潜在的市场失灵，例如informationmarket远远不够有效。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-24 07:06:00

在一定程度上利用市场指数解决无效问题。o假设3：投资是独立的。MPT假设选择个人表现独立于其他证券的证券。然而，在市场压力和极端不确定性的情况下，看似独立的投资实际上显示出相关性。市场历史证明，没有这样的工具（McClure，2010）。股票和市场不能分开，必须考虑市场环境对股票的影响。MPT在忽略环境、个人、战略或社会因素的同时，寻求最大化风险调整后的回报。历史“预期值”假设通常无法考虑历史数据期间不存在更新的环境。ICML 20192.2的提交和格式说明。市场环境股票的市场价格由股票的价值决定，但同时也受到许多其他因素的影响。一般来说，影响股票市场价格的因素主要包括以下两个方面：o宏观经济因素：宏观经济环境及其变化对股票市场宏观经济运行的影响和政府的政策（Flannery&Protopadakis，2002）。股票市场是整个金融市场体系的重要组成部分。所以，股票市场的股票价格自然会随着宏观经济条件的变化而变化。例如，一般而言，股票价格随国民生产总值的涨跌而变化市场因素：各种股票市场操作可能出现熊市、卖空和卖空、追逐和杀市，投资者意愿更加激进，股票价格将上涨。相反，如果卖空行为盛行，投资者不知所措，股票价格就会下跌。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-24 07:06:03

由于各种股票市场操作主要是短期行为，市场因素对股票市场价格的影响具有明显的短期性质。为了说明市场整体环境对投资组合的影响，我们比较了金融危机结束前后三个月的投资组合策略。股票池是道琼斯30指数。图1（a）描绘了金融危机期间的投资组合配置，图1（b）描绘了这两个图，我们发现在金融危机中，波动性状态；金融危机后，经济开始复苏，投资组合波动性相对较低，回报较高。应用强化学习的一个新兴领域是股票市场交易，其中交易者的行为类似于代理人，因为买卖是特殊的行为。回报是股票通过产生利润或亏损来改变交易者的状态。2.3. 马尔可夫决策过程公式化MDP对于强化学习尤为重要。特定的MDP由其状态和行动集以及环境的一步动态确定。给定任何状态和动作，每个可能的下一状态的概率如下：pass=Pr{st+1=s | st=s，at=a}。（4）这些量被称为转移概率。类似地，下一个奖励的预期值是lass=E{rt+1 | st=s，at=a，st+1=s}。（5） TitiesPassandrass详细说明了有限MDP动态的最重要方面。2.4. 相关强化学习方法如引言所述，DDPG主要由：PG（政策梯度）发展而来→DPG（确定性策略梯度）→DDPG（深层确定性策略梯度）。接下来，我们将介绍这一演变过程，以在复杂而动态的股票市场中制定战略。3、自适应深度强化学习我们将股票交易过程建模为MDP。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-24 07:06:07

然后，我们将交易目标表述为最大化问题。在以下假设下，Portfolio分配任务被形式化为MDP：1。投资者可以在连续的有限时间范围内的每一个时间步进行交易。单一投资者的交易不能影响市场。3、投资资本只有两种资产（股票和无风险资产）。4、投资者投资总额，即投资者无风险规避。3.1. 为自动财务断言交易培训智能代理的基本理念是一个长期存在的话题，在现代艺术智能中已被广泛讨论（Saad et al.，1998）。本质上，交易过程被很好地描述为一个在线决策问题，它涉及两个关键步骤：市场环境和最佳行动执行。由于缺乏挑战性。因此，这就要求代理人自己探索未知的股市环境，同时做出正确的决策。挑战：1）挑战源于对金融环境的总结和描述的困难；2） ICML 2019Portfolio Allocation 0 Portfolio Allocation 1 Portfolio Allocation 2 Portfolio Allocation 3价格变动买入卖出Portfolio Allocation 0 Portfolio Allocation 1 Portfolio Allocation 2 Portfolio Allocation 3价格变动买入卖出图2的提交和格式说明。策略（买入、持有和卖出）导致在价格变动后的时间t+1出现三种可能的投资组合。财务数据包含大量噪音、跳跃和移动，导致时间序列非常不稳定。总之，强化学习训练agent与环境交互，以获得最大的总体回报。该奖金价值通常与代理人确定的任务目标有关。3.1.1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-24 07:06:10

与DDPG相关的基本概念为了解决上述问题，并考虑到交易市场的随机性和互动性，我们将股票交易过程建模为马尔可夫决策过程（MDP），如图2所示，这是特定的辅助部分：状态、行动、奖励、贴现未来奖励、政策和行动价值。状态=[p，w，b]：是环境的状态。这些状态是根据代理的行为策略生成的。sis包含股票价格信息的集合∈ RD+，持股重量SW=（w，w，…，wD）T；wi公司∈ [0，1]，i=1，2。。。，DPDi=1wi=1，剩余余额b∈ R+，其中是我们在市场上考虑的股票数量，Z+表示非负整数。Actiona：所有存储上的一组操作。每只股票的可用性包括出售、购买和持有，这分别导致持有权重的减少、增加和不变。DDPG是一个learningcontinuous，因为我们的体重在不断变化。r（s，a，s）行动是在各州采取并到达新的州。投资组合价值是所有heldstocksptw中的权益和余额b的总和。我们还将dr（s，a，s）称为单步奖励值，在各州执行操作后由环境返回。上述关系可以用图3中的状态转换来表示：图3。状态转换图。贴现未来报酬：是未来状态的加权和。Rt=TXi=tγi-tr（si，ai，si+1），（6），其中γ称为贴现率，γ∈ [0，1]，通常γ=0.99。政策π：各州的股票交易策略。它本质上是AT状态的概率分布。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-24 07:06:13

更具体地说，给定一个州，决策政策将计算下一步要采取的行动。动作值函数Qπ（s，a）：在遵循策略π的状态s下，动作a实现的预期回报。3.1.2. 股票市场动力学框架股票交易问题的解决方案之一是将其建模为MDP，并使用动态规划（DP）来求解最优策略。然而，DP只解决小离散状态空间的问题。在这些挑战的驱动下，我们探索了深度强化学习算法DDPG（Lillicrap et al.，2015）（Xiong et al.，2018）（Bao&Liu，2019），以找到复杂动态股票市场中的最佳交易策略。大多数强化学习算法归结为三个主要步骤：推断、执行和学习。在第一步中，该算法利用迄今为止掌握的知识选择各州的最佳行动。接下来，它将执行一个操作，以找出奖励以及下一个状态。然后，它利用新获得的知识提高对世界的理解。我们将描述股票市场动力学的框架如下。我们使用subscriptt表示时间t，对库存d的可用操作为：okk∈ [0，wd]d=1。。。，D可以从当前持有的股份中出售股份，其中K必须是权重。在这种情况下，wt+1=wt- k、 o保持：k=0，不会导致重量变化。oktowt+1=重量+k。在这种情况下，[d]=-kis消极观点。ICML 2019的提交和格式说明应注意，所有购买的股票不应导致投资组合价值出现负余额。也就是说，在不丧失一般性的情况下，我们假设销售订单是在第一批股票上完成的，购买订单是在最后一批股票上完成的，并且应该满足以下条件- d： d]Tat[d- d： d]≥ 0。剩余余额更新为bt+1=bt+PTAT。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-24 07:06:16

如上所述，投资组合价值包括所有持有股票的余额和权益之和。在时间t，采取行动，并根据执行的行动和股票价格的更新，投资组合价值在时间（t+1）从“投资组合价值0”更改为“投资组合价值1”、“投资组合价值2”或“投资组合价值3”。根据贝尔曼方程，采取行动的预期回报是通过计算回报的预期Sr（st，at，st+1）加上下一状态的预期回报st+1来计算的。基于回报率被γ因子贴现的假设，我们有qπ（st，at）=Est+1{r（st，at，st+1）+γEat+1~π（st+1）[Qπ（st+1，at+1）]}。（7）上述Qfunction是在执行操作后在状态st中定义的操作值函数。目标是设计一种交易策略，在未来的目标时间TF（即pTtfwt+btf，也相当于toPtf）最大化投资回报-1t=1r（st、at、st+1）。由于模型的马尔可夫性，问题可以归结为优化使函数qπ（st，at）最大化的策略。这个问题很难解决，因为策略制定者不知道动作值函数，必须通过与环境交互来学习。因此，本文采用乐观&悲观3.2。优化模型结合了MarketEnvironment强化学习，提出了一种有效的穿透方法。3.2.1. 改进的RESCORLA-WANGER模型计算部分包括RESCORLA-WANGER模型（也称为Q-learning，以下称为RWmodel）。在RW模型的基础上，我们使用了一个改进的模型，该模型不同于正面和负面环境情绪新闻。正面和负面预测新闻（简称RW±）。对于每个州，Q值表示在给定的市场环境中通过采取特定措施获得的预期回报。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-24 07:06:19

考虑到我们有三个行动购买、持有和出售，该模型根据顺序行动和结果估计购买、持有和出售期权的预期价值。学习之前，初始Q值设置为0。在每个步骤t中，期权（买入、持有和卖出）的价值根据规则更新，如下所示：Qπ（st+1，at+1）=Qπ（st，at）+αδ（t）。（8）其中α是学习率，这是一个调整从一次试验到下一次试验变化幅度的比例参数，δ（t）是预测误差（我们还定义了环境情绪新闻），计算如下：δ（t）=r（st，at，st+1）- Qπ（st，at），（9）是Qπ（st，at）的预期回报与实际回报（st，at，st+1）之间的差值。按照这一规则，如果结果优于预期，则期权价值增加，而在相反的情况下，期权价值减少，并且在正、中性和负预测误差之后，更新的幅度相似。3.2.2.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-24 07:06:23

更新规则修改后的Q-学习算法（RW±）的更新规则由（Lefebvre et al.，2017）Qπ（st+1，at+1）=Qπ（st，at）给出+α+δ（t）如果δ（t）>0，α-δ（t）如果δ（t）<0。（10）当预测误差为正时，这意味着实际回报率（st，at，st+1）优于预期回报率qπ（st，at），学习率α+调整RW±模型的振幅允许更新的振幅不同，接下来是积极的（好环境情绪化新闻）和消极的（坏环境情绪化±积极和消极体验）。此外，给定Q值，执行softmax规则的相关策略如下：π（st）=e（Qπ（st，at）β）/e（Qπ（st，at）β）+e（Qπ（st，at）β）,（11）其中β是一个调整决策随机性的标度参数，用于控制勘探开发权衡。（11）是基于关联值的一组选项的标准随机性。ICML 2019Critic NetworkActor网络的提交和格式说明图4。学习网络架构。3.3. 自适应DDPG我们使用自适应DDPG算法来最大化投资回报。DDPG是确定性策略梯度（DPG）算法的改进版本，DPG基于策略梯度（PG）改进。对于DDPG，Q-learning使用贪心操作在+1处最大化Q（st+1，at+1），状态st+1如下Qπ（st，at）=Est+1r（st，at，st+1）+γmaxat+1Q（st+1，at+1）. （12）如图4所示，自适应DDPG包括一个actornetwork和一个Critical network。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-24 07:06:26

参与者网络u（s |θu）将状态映射到动作，在预测误差δ（t）可用后，评论家网络随后更新ESQs、 a |θQ根据预测误差δ（t）和学习率α+（或α-), 其中θu是参与者网络参数集，θQis是评论家网络参数集。N+和N-是分别对应于正环境和负环境的随机过程，用于向参与者网络的输出添加噪声以探索动作。与DDPG类似，我们的模型根据预测误差δ（t）和takesan ActionAtost使用经验replayRdatesQ（s，a），然后根据t+1获得奖励。然后计算i=ri+γQ（si+1，u（si+1 |θu，θQ）），i=1。。。，N、然后将转换（st、at、st+1、rt）存储在重播缓冲区中。在从r中提取出一个示例转换后，我们通过最小化期望的difL（θQ）Q和评论家网络Q来更新评论家网络。在通过来自经验缓冲区的转换更新评论家网络和演员网络后，目标演员网络和目标评论家网络更新如下：θQ← τθQ+（1- τ）θQ，（13）θu← τθu+ (1 - τ）θu，（14），其中τ表示学习速率。2014年2月1日2015年3月20日2016年9月5日2017年7月27日2018年2月10日日期15000175002025000225000价格市场指数学习率图5。测试期间的市场指数数据和相应的学习率。4、性能评估本节评估自适应DDPG算法的性能。结果表明，自适应的道琼斯工业平均值（DJIA）和传统的投资组合分配策略。4.1. 数据预处理和比较方法是我们的股票库。数据（每日价格）的时间跨度为2001年1月1日至2018年9月30日。数据集从通过沃顿研究数据服务（WRDS）访问的Compustat数据库下载。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-24 07:06:29

2001年1月1日至2013年12月30日（包括3268个交易日）的数据集用作培训数据，其余数据集（2014年2月1日至2018年2月10日，包括1190个交易日）用作代理的测试数据表现。相应的学习率，即我们设置α+=1和α-= 我们把n+设为正常的随机过程n-作为一个随机过程，只会产生负值。我们使用30只股票的每日价格数据来训练自适应DDPG代理。然后，我们在测试数据上运行代理，并将其性能与vanilla DDPG、DJIA以及最小方差和均值方差投资组合分配策略进行比较。我们使用最终投资组合价值、年化回报率、年化标准误差和夏普比率来评估所提出的方法。最终投资组合价值反映了在一定时间范围内投资的总体效果。年化收益率是货币的几何平均金额。年化标准误差反映了波动性，并显示了模型的稳健性。夏普比率（单位波动率收益率）用于评估投资组合绩效（夏普，1994）。ICML 201901/02/2014 08/11/2014 03/20/2015 10/30/2015 05/09/2016 12/19/2016 07/27/2017 03/01/2018 10/02/2018日期10000120001400011600018000200022000投资组合价值Adaptive DDPG DDPG DJIAMin Var Mean VarFigure 6。提出的自适应DDPG和传统方法的投资组合分配收益。方法自适应DDPG DDPG DJIA最小方差平均方差初始值10000 10000 10000 10000最终值21880 18156 16089 16333 19632年化收益率18.84%14.71%11.36%11.48%15.86%年化标准误差11.59%14.68%12.43%11.64%12.70%Sharpe比率1.63 1.01 0.91 0.99 1.25表1。交易业绩。4.2.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-24 07:06:32

绩效结果图6显示，自适应DDPG模型明显优于道琼斯工业公司的香草DDPG模型。我们可以看到，DDPG策略优于道琼斯工业平均指数和传统的投资组合配置策略。年化收益率为18.84%，远高于香草DDPG的14.71%，道琼斯工业平均指数的11.36%，最小方差和和15.86%。adaptiveDDPG策略的年化夏普比也较高，表明adaptiveDDPG策略优越。因此，结果表明，自适应DDPG策略可以有效地开发出优于vinilla DDPG、基准道琼斯工业平均指数和传统投资组合分配方法的匹配策略。结论适用于portfolioallocation任务的策略梯度（AdaptiveDDPG）方案。自适应DDPG结合了乐观或悲观的深度强化学习，根据正预测误差或负预测误差，允许更新的幅度不同。基于道琼斯股票的实验结果表明，所提出的自适应DDPG模型可以在不同的市场条件下获得更好的投资组合配置策略。投资组合回报结果表明，基于我们的自适应DDPG，投资回报可以显著提高。未来的工作将是探索更高级的模型和处理更大规模的数据（Burda et al.，2019）方案（Li et al.，2019），并提高机器学习算法的鲁棒性（Yang et al.，2018）。我们还想进行一些文本分析，例如提取文本模型进行分析（Hu等人，2018）。参考Bao，W.和Liu，X.-Y.Multi-agent deep EnforcementShop on Applications and Infrastructure for Multi-AgentLearning，2019年。ICML 2019和Efros，A.A.的提交和格式说明。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-24 07:06:35

好奇心驱动学习的大规模研究。ICLR，2019年。wise linear representation method and a neural Networks on Systems，Man，and Controlnetics，Part C（Applications and Reviews），39（1）：80–922009。Flannery，M.J.和Protopadakis，A.A.宏观经济因素确实影响股票总回报。《金融研究评论》，15（3）：751–7822002。Hu，Z.，Liu，W.，Bian，J.，Liu，X.，和Liu，T-Y.《倾听混沌耳语：面向新闻的股票趋势预测的深度学习框架》。《数据挖掘和数据挖掘学报》，第261-269页。ACM，2018年。Konda，V.R.和Tsitsiklis，J.N.演员评论家算法。《神经信息处理系统的进展》，第1008–10142000页。Lefebvre，G.、Lebreton，M.、Meyniel，F.、Bourgeous Gironde，S.和Palminteri，S.《行为和神经特征行为》，1（4）：00672017。Li，Q.，Wang，T.，Li，P.，Liu，L.，Gong，Q.，和Chen，Y.信息科学，278:826–8402014。Li，X.，Li，Y.，Liu，X-Y.，和Wang，C.《通过异常规避进行风险管理：记忆深度学习形成术语股票预测》。在KDD金融异常检测研讨会上，2019年。Lillicrap，T.P.、Hunt，J.J.、Pritzel，A.、Heess，N.、Erez，T.、Tassa，Y.、Silver，D.和Wierstra，D.通过深度强化学习进行持续控制。arXiv预印本XIV:1509.029712015。投资组合理论。《全球商业研究杂志》，7（1）：59–702013年。Markowitz，H.《投资组合选择》。《金融杂志》，7（1）：77–911952年。现代投资组合理论：为什么它仍然流行。investopedia，2010年。Mnih，V.、Kavukcuoglu，K.、Silver，D.、Rusu，A.A.、Veness，J.、Bellemare，M.G.、Graves，A.、Riedmiller，M.、Fidjeland，A.K.、Ostrovski，G.等人，《人体水平控制》，5292015年。Morien，T.Travis Morien财务顾问。检索到onMPT批评。，12(18):11.Neuneier，R.为优化资产配置增强Q学习。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-24 07:06:38

《神经信息处理系统的进展》，第936–942页，1998年。Saad，E.W.，Prokhorov，D.V.，和Wunsch，D.C.《神经网络的合作》，9（6）：1456–14701998年。夏普，W.F.夏普比率。《投资组合管理杂志》，21（1）：49–581994年。Sharpe，W.F.和Sharpe，W.投资组合理论和资本市场，第217卷。麦格劳·希尔，纽约，1970年。Xiong，Z.，Liu，X-Y.，Zhong，S.，Yang，H.，和Walid，A.股票交易的实用深度强化学习方法。《神经信息处理系统进展》，2018年。Yang，H.，Liu，X-Y.，和Wu，Q.一种实用的动态股票推荐机器学习方法。InIEEE国际信任、安全和隐私会议（TrustCom），第1693-1697页。IEEE，2018年。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群