全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1247 9
2022-06-11
英文标题:
《Practical Deep Reinforcement Learning Approach for Stock Trading》
---
作者:
Zhuoran Xiong, Xiao-Yang Liu, Shan Zhong, Hongyang Yang, and Anwar
  Walid
---
最新提交年份:
2018
---
英文摘要:
  Stock trading strategy plays a crucial role in investment companies. However, it is challenging to obtain optimal strategy in the complex and dynamic stock market. We explore the potential of deep reinforcement learning to optimize stock trading strategy and thus maximize investment return. 30 stocks are selected as our trading stocks and their daily prices are used as the training and trading market environment. We train a deep reinforcement learning agent and obtain an adaptive trading strategy. The agent\'s performance is evaluated and compared with Dow Jones Industrial Average and the traditional min-variance portfolio allocation strategy. The proposed deep reinforcement learning approach is shown to outperform the two baselines in terms of both the Sharpe ratio and cumulative returns.
---
中文摘要:
股票交易策略在投资公司中起着至关重要的作用。然而,在复杂、动态的股票市场中,如何获得最优策略是一个挑战。我们探索深度强化学习的潜力,以优化股票交易策略,从而实现投资回报最大化。我们选择了30只股票作为交易股票,并将其每日价格用作培训和交易市场环境。我们训练了一个深度强化学习代理,并获得了一个自适应的交易策略。对代理人的绩效进行了评估,并与道琼斯工业平均指数和传统的最小方差投资组合分配策略进行了比较。所提出的深度强化学习方法在夏普比率和累积收益方面均优于两条基线。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-11 04:09:39
股票交易的实用深度强化学习方法*, 刘晓阳*, 单忠*, Hongyang(Bruce)Yang+,和Anwar Walid+*哥伦比亚大学电气工程部,+哥伦比亚大学统计系,+系统数学研究部,诺基亚贝尔实验室:{ZX2214,XL2427,SZ2495,HY2500}@哥伦比亚。埃杜,安瓦尔。walid@nokia-贝尔实验室。在复杂、动态的股票市场中,寻求最优策略是一个挑战。我们探索深度强化学习的潜力,以优化股票交易策略,从而实现投资回报最大化。股票被选为我们的交易股票,其每日价格被用作培训和交易市场环境。我们训练了一个深度强化学习代理,并获得了一个自适应的交易策略。对代理的性能进行了评估,并与道琼斯工业平均指数和传统的最小方差投资组合分配策略进行了比较。所提出的深度强化学习方法在夏普比和累积收益率方面均优于两条基线。1引入资本,从而最大化绩效,如预期回报。收益最大化是基于对股票潜在收益和风险的估计。然而,对于分析师来说,在复杂的股市中考虑所有相关因素是一个挑战[1-3]。一种传统方法分两步执行,如[]所述。首先,计算股票的预期收益和股票价格的协方差矩阵。最佳的投资组合配置是通过最大化投资组合固定风险的回报或最小化一系列回报的风险来找到的。然后,通过遵循最佳投资组合分配来提取最佳交易策略。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:09:42
然而,如果管理者想要修改在每个时间步做出的决策,并将交易成本等因素考虑在内,那么这种方法的实施可能会非常复杂。解决股票交易问题的另一种方法是将其建模为马尔可夫决策过程(MDP),并使用动态规划来求解最优策略。然而,由于在处理股票市场时存在较大的状态空间,该模型的可扩展性受到限制[5–8]。基于上述挑战,我们探索了一种深度强化学习算法,即深度确定性政策梯度(DDPG)[],以在复杂动态的股票市场中找到最佳交易策略。该算法由三个关键组件组成:(i)actor-Critical框架[],用于建模大型状态和动作空间;(ii)稳定培训过程的目标网络[];(iii)体验重播,消除样本之间的相关性,增加usageNIPS 2018金融服务业人工智能挑战与机遇研讨会:公平、可解释性、准确性和隐私的影响,加拿大蒙特勒尔。这是一份非档案出版物-作者可以将本文的修订和扩展提交给其他出版物。的数据。DDPG算法的有效性通过实现高于的回报来证明。本文组织如下。第2节包含我们股票交易问题的陈述。第3节,我们驱动并指定主要的DDPG算法。第四节描述了我们的数据预处理和实验装置,并介绍了DDPG算法的性能。第5节给出了我们的结论。2问题陈述我们将股票交易过程建模为马尔可夫决策过程(MDP)。然后,我们将交易目标表述为最大化问题。2.1股票交易过程作为马尔可夫决策过程(MDP)的问题公式,如图。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:09:45
1,具体如下:o状态=【p、h、b】:包含股票价格信息的集合∈ RD+,股票持有量∈ ZD+,剩余余额B∈ R+,其中,我们在市场上考虑的股票数量,Z+表示非负整数Actiona:所有存储上的一组操作。每只股票的可用行为包括出售、购买和持有,这分别导致持有量的减少、增加和不变报酬(s、a、s):当在各州采取行动时,投资组合价值的变化,以及SPT和余额b。o政策π(s):各州的股票交易策略。它本质上是一个at状态s的概率分布。Qπ(s,a)asing policyπ。股票市场的动态描述如下。我们使用下标来表示timet,对库存d的可用操作是o卖出:k(k∈ [1,h[d],其中d=1。。。,D) 可以从当前持有的股份中出售股份,其中k必须是整数。在这种情况下,ht+1=ht- k、 o保持:k=0,不会导致ht发生变化。okht+1=ht+kat【d】=-捏合整数。应该注意的是,所有购买的股票不应导致portfoliovalue出现负余额。也就是说,在不丧失一般性的情况下,我们假设销售订单是在FirstDattPT[1:d]Tat[1:d]+bt+pt[d]上完成的-d: d]Tat[d-d: d]≥ 0、余额更新为bt+1=bt+PTAT。图1示出了该过程。如上所述,投资组合价值由时间(t+1)的余额和sumt1、“投资组合价值2”或“投资组合价值3”组成。在暴露于环境之前,PI设置为时间的股票价格,并在任何状态的所有行动中取初始HQπ(s,a)π(s)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:09:48
然后,通过与外部环境交互来学习Qπ(st,at)。道琼斯工业平均指数是一个股票市场指数,显示了30家总部位于美国的大型上市公司在股票市场的标准交易时段的交易情况。图1:如果股票价格发生变化,一个开始的投资组合价值和三个动作会导致三个可能的投资组合价值。A预期奖励r(st、at、st+1)加上下一状态st+1的预期奖励。基于收益按γ因子折现的假设,我们得到qπ(st,at)=Est+1[r(st,at,st+1)+γEat+1~π(st+1)[Qπ(st+1,at+1)]]。(1) 2.2作为回报最大化的交易目标目标是设计一种交易策略,使投资回报在未来的目标时间T最大化,即pTtfht+btf,也相当于TF-1t=1r(st、at、st+1)。由于MarkovfunctionQπ(st,at)。这个问题很难解决,因为政策制定者不知道行动价值函数,必须通过与环境交互来学习。因此,本文采用深度强化学习方法来解决这一问题。3深度强化学习方法我们使用DDPG算法来最大化投资回报。DDPG是确定性策略梯度(DPG)算法的改进版本[]。DPG结合了bothQ learning[]和policy gradient[]的框架。与DPG相比,DDPG采用神经网络作为函数逼近器。本节中的DDPG算法适用于股票交易市场的MDP模型。Q(st+1,at+1)为了更新eq(st,at),Q-learning使用贪婪的actionat+1来最大化状态ss+1的Q(st+1,at+1),即Qπ(st,at)=Est+1[r(st,at,st+1)+γmaxat+1Q(st+1,at+1)]。(2) 状态用值函数编码。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:09:51
然而,DQN方法对于这个问题是难以解决的,考虑到总库存的数量,行动空间的大小呈指数增长,导致MAP州采取行动来解决这个问题。如图2所示,DDPG维护演员网络和评论家网络。参与者网络u(s |θu)将状态映射到动作,其中θu是参与者网络参数集,临界值(s,a |θQ)θQ从随机过程N中采样。与DQN类似,DDPG使用体验重播缓冲区来存储转换和更新模型,并且可以有效地减少体验样本之间的相关性。目标参与者网络图2:学习网络架构。算法1 DDPG算法1:使用随机权重θQandθu随机初始化评论家网络Q(s,a |θQ)和演员u(s |θu);2: 使用权重θQ初始化目标网络Qandu← θQ,θu← θu;3: 初始化重播缓冲区R;4: 对于插曲=1,M do5:初始化一个随机过程N以进行动作探索;6: 接收初始观测状态s;7: 对于t=1,t do8:根据当前政策和勘探噪声,选择行动at=u(st |θu)+nta;9: 执行操作At并观察奖励Rt和状态st+1;10: 在R中存储转换(st、at、rt、st+1);11: 从R中随机抽取一小批N个跃迁(si、ai、ri、si+1);12: 设置yi=ri+γQ(st+1,u(si+1 |θu|θQ));13: 通过最小化损失更新评论家:L=NPi(yi- Q(si,ai |θQ));14: 使用采样的策略渐变更新参与者策略:θuJ≈NXi公司aQ(s,a |θQ)| s=si,a=u(si)θu(s |θu)| si;15: 更新目标网络:θQ← τθQ+(1- τ) θQ,θu← τθu+ (1 - τ)θu.16: end for17:end forQandu分别通过复制actor和Critical网络创建,以便它们提供一致的时差备份。这两个网络都是迭代更新的。每次,DDPG代理都会执行一项任务,然后根据任务+1获得奖励。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群