全部版块 我的主页
论坛 经济学人 二区 外文文献专区
609 19
2022-06-10
英文标题:
《Adversarial Deep Reinforcement Learning in Portfolio Management》
---
作者:
Zhipeng Liang, Hao Chen, Junhao Zhu, Kangkang Jiang, Yanran Li
---
最新提交年份:
2018
---
英文摘要:
  In this paper, we implement three state-of-art continuous reinforcement learning algorithms, Deep Deterministic Policy Gradient (DDPG), Proximal Policy Optimization (PPO) and Policy Gradient (PG)in portfolio management. All of them are widely-used in game playing and robot control. What\'s more, PPO has appealing theoretical propeties which is hopefully potential in portfolio management. We present the performances of them under different settings, including different learning rates, objective functions, feature combinations, in order to provide insights for parameters tuning, features selection and data preparation. We also conduct intensive experiments in China Stock market and show that PG is more desirable in financial market than DDPG and PPO, although both of them are more advanced. What\'s more, we propose a so called Adversarial Training method and show that it can greatly improve the training efficiency and significantly promote average daily return and sharpe ratio in back test. Based on this new modification, our experiments results show that our agent based on Policy Gradient can outperform UCRP.
---
中文摘要:
在本文中,我们实现了三种最先进的连续强化学习算法,即投资组合管理中的深层确定性策略梯度(DDPG)、近端策略优化(PPO)和策略梯度(PG)。它们都被广泛应用于游戏和机器人控制中。此外,PPO具有诱人的理论特性,有望在投资组合管理中发挥潜力。我们展示了它们在不同设置下的性能,包括不同的学习率、目标函数、特征组合,以便为参数调整、特征选择和数据准备提供见解。我们还对中国股市进行了深入的实验,结果表明,尽管二者都比较先进,但在金融市场上,PG比DDPG和PPO更可取。此外,我们还提出了一种所谓的对抗式训练方法,并表明该方法可以大大提高训练效率,显著提高平均日回报率和回测夏普比。基于这种新的修改,我们的实验结果表明,基于策略梯度的代理可以优于UCRP。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-10 13:35:46
组合管理中的对抗式深度强化学习梁志鹏*+,陈浩(音译)*+, 朱俊豪(Junhao Zhu)*+, 姜康康*+,李燕然*+*似然科技+中山大学{梁志平6号,陈浩348,朱建华25号,江KK3,李亚尔8号}@mail2。系统单元。埃杜。cnAbstract在本文中,我们在投资组合管理中实现了三种最先进的连续强化学习算法:深度确定性策略梯度(DDPG)、近端策略优化(PPO)和策略梯度(PG)。所有这些都广泛应用于游戏和机器人控制。此外,PPO具有诱人的理论特性,有望在投资组合管理中发挥潜力。我们展示了它们在不同设置下的性能,包括不同的学习率、目标函数、特征组合,以便为参数调整、特征选择和数据准备提供见解。我们还对中国股市进行了深入的实验,结果表明,尽管二者都比较先进,但在金融市场上,PG比DDPG和PPO更受欢迎。此外,我们提出了一种所谓的逆境培训方法,并表明它可以极大地提高培训效率,显著提高日平均回报率和回测中的夏普比率。基于这种新的修改,我们的实验结果表明,基于PolicyGradient的代理可以优于UCRP。索引词强化学习;投资组合管理深度学习;政策梯度;深层确定性政策梯度;近端策略优化。简介在投资组合管理中利用深度强化学习在算法交易领域越来越受欢迎。然而,深度学习因其对神经网络结构、特征工程等的敏感性而臭名昭著。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 13:35:49
因此,在我们的实验中,我们利用三种深度强化学习算法,即deepdeterministic policy gradient(DDPG)、proximate policy optimization(PPO)和policy gradient(PG),探索了不同优化器和网络结构对交易代理的影响。我们的实验是在中国股市的数据集上进行的。我们的代码可以在github上查看。二、本文主要由三部分组成。首先,投资组合管理,关注在不同的时间内实现高回报和低风险的最佳资产配置。投资组合管理方法的几个主要类别包括“追随赢家”、“追随输家”、“模式匹配”和“元学习算法”prohttps://github.com/qq303067814/Reinforcement-learning-in-portfoliomanagementposed.深度强化学习实际上是“模式匹配”和“元学习”的结合。强化学习是一种通过与环境交互进行学习,并通过反复试验逐步提高其性能的方法,已被提议作为投资组合管理策略的候选者。Xin Du等在强化学习中进行了QLearning和策略梯度,发现直接强化算法(策略搜索)比基于值函数的搜索算法更能简化问题表示[2]。Saud Almahdi等人扩展了递归强化学习,并在预期的最大提取下构建了最优的可变权重投资组合分配【3】。秀高等。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 13:35:52
使用绝对利润和相对风险调整利润作为绩效函数,分别对系统进行培训,并雇佣一个由两个网络组成的委员会,该委员会被发现从外汇市场的交易中产生可观的利润[4]。由于深度学习的发展,人们熟知其在语音识别、图像识别中检测复杂特征的能力,强化学习和深度学习的结合,即所谓的深度强化学习,在机器人控制、游戏方面取得了巨大的成绩,在特征工程方面只需很少努力,就可以实现端到端的实现[5]。函数近似一直是解决大规模动态编程问题的一种方法[6]。深度Q学习,使用神经网络作为Q值函数的近似器,使用replaybuffer进行学习,在不改变网络结构和超参数的情况下,在玩不同游戏时获得了显著的性能[7]。深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)是我们选择用于实验的算法之一,它使用actorcritic框架来稳定训练过程,并实现更高的采样效率[8]。另一种算法是近似策略优化(ProximalPolicy Optimization,PPO),该算法将推导出策略的单调改进[9]。由于金融市场数据中的复杂、非线性模式和低信噪比,深度强化学习被认为具有潜力。蒋正尧等人提出了投资组合管理中深度强化学习的框架,并证明其优于传统的投资组合策略[10]。Yifeng Guo el位于。重新定义日志优化策略,并将其与强化学习相结合【12】。唐丽丽提出了一种不确定环境下基于模型的演员-评论家算法,其中最优值函数是在限制风险范围和有限资金数量的基础上通过迭代获得的[13]。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 13:35:55
David W.Luimplemented in Long-Short-Term Memory(LSTM)Recurrent Structures with Reinforction Learning or Evolution Strategies as agents。该系统的稳健性和可行性在英镑兑美元交易中得到验证【14】。Steve Y.Yang等人。提出了一种基于投资者情绪回报的交易系统,旨在只提取产生消极或积极市场反应的信号【15】。汉斯·布勒(Hans Buehler)提出了一个利用现代深度强化机器学习方法在存在交易成本、市场影响、流动性约束或风险限制等市场摩擦的情况下对冲衍生品组合的框架[16]。然而,以前的大多数工作都使用美国的股票数据,这无法为我们在波动性更大的中国股市中的实现提供帮助。此外,很少有研究在投资组合规模或不同特征组合的影响范围内进行。为了更深入地了解portfoliomanagement中强化学习的真实性能并发现其缺陷,我们选择了主流算法DDPG、PPOA和PG,并使用不同的超参数、优化器等进行了深入的实验。本文组织如下:在第二部分中,我们将正式建模投资组合管理问题。我们将证明交易费用的存在将使问题从一个纯粹的预测问题(其全局优化策略可以通过贪婪算法获得)变成一个计算昂贵的动态规划问题。大多数强化学习算法侧重于玩游戏的机器人控制,而我们将展示投资组合管理中的一些关键特征需要对算法进行一些修改,并提出我们的新修改,即所谓的对抗性训练。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 13:35:58
第三部分我们将进入我们的实验装置,其中我们将介绍我们的数据处理、算法以及我们对不同超参数对累积投资组合价值影响的研究。第四部分我们将展示我们的实验结果。在第五部分中,我们将得出我们的结论和在投资组合管理中深入强化学习的未来工作。三、 问题定义给定一段时间,例如一年,股票交易者投资于一组资产,并允许重新分配以最大化其收益。在我们的实验中,我们假设市场是连续的,换句话说,收盘价等于次日的开盘价。交易代理人每天通过分析数据观察股市,然后重新分配其投资组合。此外,我们假设代理行在交易日结束时进行重新分配,这表明所有重新分配都可以在收盘价完成。此外,我们在实验中还考虑了交易成本,即交易金额的一部分。形式上,投资组合由m+1资产组成,包括m风险资产和一无风险资产。在没有折旧的情况下,我们选择货币作为无风险资产。t期后ithasset的收盘价为vclosei,t。所有资产的收盘价包括t期的价格向量vcloset。建模为马尔可夫决策过程,表明下一个状态仅取决于当前状态和操作。元组(S,A,P,r,ρ,γ)描述了整个投资组合管理问题,其中S是一组状态,A是一组动作,P:S×A×S→ R是转移概率分布,R:S→ R是奖励函数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群