全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1323 34
2022-06-14
英文标题:
《Continuous-Time Mean-Variance Portfolio Selection: A Reinforcement
  Learning Framework》
---
作者:
Haoran Wang, Xun Yu Zhou
---
最新提交年份:
2019
---
英文摘要:
  We approach the continuous-time mean-variance (MV) portfolio selection with reinforcement learning (RL). The problem is to achieve the best tradeoff between exploration and exploitation, and is formulated as an entropy-regularized, relaxed stochastic control problem. We prove that the optimal feedback policy for this problem must be Gaussian, with time-decaying variance. We then establish connections between the entropy-regularized MV and the classical MV, including the solvability equivalence and the convergence as exploration weighting parameter decays to zero. Finally, we prove a policy improvement theorem, based on which we devise an implementable RL algorithm. We find that our algorithm outperforms both an adaptive control based method and a deep neural networks based algorithm by a large margin in our simulations.
---
中文摘要:
我们用强化学习(RL)方法研究了连续时间均值方差(MV)投资组合选择问题。该问题是为了在勘探和开采之间实现最佳权衡,并被表述为一个熵正则化、松弛的随机控制问题。我们证明了该问题的最优反馈策略必须是方差随时间衰减的高斯最优反馈策略。然后,我们建立了熵正则化MV和经典MV之间的联系,包括可解性等价性和探索权重参数衰减为零时的收敛性。最后,我们证明了一个策略改进定理,并在此基础上设计了一个可实现的RL算法。我们发现,在我们的仿真中,我们的算法大大优于基于自适应控制的方法和基于深度神经网络的算法。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--
一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-14 13:57:40
连续时间均值-方差组合选择:一个强化学习框架*王浩然+周迅宇初稿:2019年2月此版本:2019年5月摘要我们采用强化学习(RL)方法进行连续时间均值-方差(MV)组合选择。这个问题是为了在开发和利用之间实现最佳的权衡,它被表述为一个熵正则化、放松的随机控制问题。我们证明了该问题的最优反馈策略必须是具有时间衰减方差的beGaussian反馈策略。然后,我们建立了熵正则化MV和经典MV之间的联系,包括可解性等价性和探索权重参数衰减为零时的收敛性。最后,我们证明了一种策略改进理论,并在此基础上设计了一种可实现的RL算法。我们发现,我们的算法在仿真中大大优于基于自适应控制的方法和基于深度神经网络的算法。关键词。强化学习,均值-方差投资组合选择,熵正则化,随机控制,值函数,高斯分布,政策改进定理。*我们感谢Fields Institute研讨会与会者的评论。Wang感谢哥伦比亚FDT智能资产管理中心提供的财政支持。Zhou感谢哥伦比亚大学的启动拨款和FDT智能资产管理中心提供的财政支持。+美国纽约哥伦比亚大学工业工程与运营研究系,邮编:10027。电子邮件:hw2718@columbia.edu.美国纽约哥伦比亚大学工业工程与运筹学系和数据科学研究所,邮编:10027。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:57:43
电子邮件:xz2574@columbia.edu.1近年来,强化学习(RL)在定量金融(如算法和高频交易、智能订单处理、投资组合管理等)中的应用越来越受到关注。其中一个主要原因是,当今盛行的电子市场能够为培训和适应性学习提供足够数量的微观结构数据,远远超出了过去人类交易员和投资组合经理所能处理的范围。沿着这一方向进行了大量研究。例如,Nevmyvaka等人(2006年)对应用于最优订单执行的RL方法进行了第一次大规模实证分析,并取得了相对于基线策略的实质性改进。Hendricks和Wilcox(2014)利用RL技术和市场属性改进了Almgren-Chriss模型(Almgren and Chriss(2001))的理论最优交易策略。Moody和Saffell(2001)以及Moody et al.(1998)通过基于直接策略搜索的RL方法研究了具有交易成本的投资组合分配问题,而没有求助于依赖于超级学习的预测模型。然而,现有的大多数工作只关注具有折扣回报预期效用的RL优化问题。这些标准要么无法充分描述金融市场决策过程的不确定性,要么对典型投资者不透明。另一方面,均值-方差(MV)是投资组合选择的最重要标准之一。马科维茨(Markowitz,1952)在一个时期内进行投资组合选择的开创性工作中提出了这样一个标准,该标准产生了一种资产配置策略,该策略可以最大限度地减少最终支付的方差,同时以一些特定的平均回报为目标。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:57:47
在离散时间多周期设置(Li和Ng(2000))和连续时间设置(Zhou和Li(2000))中,以及对冲(Duffee和Richardson(1991))和最优清算(Almgren和C hriss(2001))以及许多其他变量和推广中,对MV问题进行了进一步研究。MV标准的流行不仅是因为其在捕捉从业者风险和回报之间的权衡方面的直观性和易变性,而且还因为不成熟的随机优化和控制问题内在的时间不一致性(或Bellman不一致性)这一理论上有趣的问题。从RL的角度来看,在MVCriteria下寻求马尔可夫决策过程(MDP)问题的全局最优解在计算上具有挑战性(Mannor和Tsitsiklis(2013))。事实上,方差估计和控制并不像优化预期回报那样直接,对于大多数RL问题,经典MDP框架已经很好地理解了这一点。由于大多数标准的MDP绩效标准在预期中是线性的,包括折扣奖励和长期平均奖励(Sutton和Barto(2018)),因此可以很容易地导出Bellman的一致性方程来指导政策评估和控制,从而产生许多最先进的RL技术(如Q-learning、temproaral Difference(TD)learning等)。然而,预期回报的方差是非线性的,因此,大多数已知的学习规则无法直接应用。现有的方差估计和控制工作一般分为两类,基于价值的方法和基于政策的方法。Sobel(1982)获得了给定政策下奖励方差的Bellman方程——不减额。基于该方程,Sato等人。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:57:52
(2001)推导了T D(0)学习规则,以估计任何给定策略下的方差。Sato和Kobayashi(2000)在一篇相关论文中将这种基于价值的方法应用于MV投资组合选择问题。值得注意的是,由于他们对中间值函数(即方差惩罚的预期奖励)的定义,Bellman的最优性原则并不成立。因此,不能保证基于最新更新值函数的贪婪策略最终会导致真正的全局最优策略。第二种方法是基于政策的RL,由inTamar et al.(2013)提出。他们还将工作扩展到线性函数逼近器,并为MV优化问题设计了演员-评论家算法,以概率1保证收敛到局部最优(Tamar和Mannor(2013))。这一研究领域的相关工作包括Prashanth和Ghavamzadeh(2013、2016)等。尽管有上述各种方法,但在mv准则下寻找全局最优解仍然是RL中一个开放而有趣的问题。在本文中,我们建立了一个研究连续时间MV投资组合选择的RL框架,其中包含连续投资组合(控制/行动)和财富(状态/特征)空间。当投资组合的再平衡可以以超高频率进行时,就会出现连续时间公式。这种公式也可以从目前大多数电子市场上提供的大量滴答数据中获益。经典的连续时间MV投资组合模型是一个随机线性-二次(LQ)控制问题的空间实例(Zhou和Li(2000))。最近,Wang et al.(2019)提出并开发了一种通用的熵正则化、宽松的随机控制公式,称为探索公式,以明确捕获RL中勘探和开发之间的权衡。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:57:55
他们表明,对于有限时间范围内的LQ控制问题,探索性控制策略的最优分布必须从零开始,从而为在RL算法设计和实践中广泛使用的Guassian探索提供了解释。虽然基本上是一个LQ控制问题,但MV投资组合选择必须在特定的时间范围内制定,而Wang等人(2019)并未涵盖该时间范围。本文的第一个贡献是提出了探索性MV问题的全局最优解。一个有趣的发现是,与Wang等人(2019)得出的有限水平情况不同,有限水平情况下的最佳反馈控制策略是具有时间衰减方差的高斯分布。这表明,随着时间接近计划层位的终点,勘探水平降低。另一方面,我们将获得与Wang et al.(2019)中的结果和观察结果平行的结果和观察结果,例如在最优高斯分布的均值和方差中,开发和探索之间的完美分离,随机环境对学习的积极影响,以及经典MV问题和探索MV问题之间的密切联系。然而,本文的主要贡献是设计一个可解释和可实现的RL算法,以学习探索性MV问题的全局最优解,前提是具有熵正则化和控制松弛的连续时间随机控制问题的可证明策略改进定理。该定理以当前策略的值函数为基础,以迭代的方式为反馈高斯策略提供了一种显式的更新方案。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群