全部版块 我的主页
论坛 经济学人 二区 外文文献专区
591 26
2022-06-24
英文标题:
《Large scale continuous-time mean-variance portfolio allocation via
  reinforcement learning》
---
作者:
Haoran Wang
---
最新提交年份:
2019
---
英文摘要:
  We propose to solve large scale Markowitz mean-variance (MV) portfolio allocation problem using reinforcement learning (RL). By adopting the recently developed continuous-time exploratory control framework, we formulate the exploratory MV problem in high dimensions. We further show the optimality of a multivariate Gaussian feedback policy, with time-decaying variance, in trading off exploration and exploitation. Based on a provable policy improvement theorem, we devise a scalable and data-efficient RL algorithm and conduct large scale empirical tests using data from the S&P 500 stocks. We found that our method consistently achieves over 10% annualized returns and it outperforms econometric methods and the deep RL method by large margins, for both long and medium terms of investment with monthly and daily trading.
---
中文摘要:
我们建议使用强化学习(RL)来解决大规模Markowitz均值-方差(MV)投资组合分配问题。通过采用最近开发的连续时间探索性控制框架,我们在高维上描述了探索性MV问题。我们进一步证明了方差随时间衰减的多元高斯反馈策略在权衡勘探和开发时的最优性。基于一个可证明的政策改进定理,我们设计了一个可扩展且数据高效的RL算法,并使用标准普尔500指数股票的数据进行了大规模的实证检验。我们发现,我们的方法始终实现超过10%的年化回报,无论是长期还是中期投资,无论是月度还是每日交易,它都大大优于计量经济学方法和深度RL方法。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-24 12:00:06
通过强化学习的大规模连续时间均值-方差投资组合分配Haoran WangDepartment of Industrial Engineering and Operations s Research哥伦比亚大学纽约分校,NY 10027摘要我们建议使用强化学习(RL)解决大规模Markowitz均值-方差(MV)投资组合分配问题。通过采用最近发展起来的连续时间探索控制框架,我们在高维上构造了探索者y MV问题。我们进一步证明了一个方差随时间衰减的多元高斯反馈策略在勘探开发过程中的最优性。基于一个可证明的政策改进定理,我们设计了一个可扩展且数据有效的RL算法,并使用标准普尔500指数股票的数据进行了大规模的实证测试。我们发现,我们的方法始终实现超过10%的年化回报,无论是长期投资还是中期投资,无论是月度交易还是日常交易,都以巨大的利润超过了ms经济计量方法和深度RL方法。1简介强化学习(RL)在游戏([26]、[27]、[15])、机器人学([9]、[21])中证明是成功的,这也引起了人们对其在定量金融中的应用的极大关注。值得注意的例子包括使用clssical Q-learningmethod的大规模最优订单执行([20]),使用直接策略搜索的投资组合分配([16],[17]),以及使用deep RL方法的期权定价和对冲([4]),等等。然而,现有的大多数工作只关注具有折扣报酬预期效用的RL问题。这些标准要么无法完全描述金融市场决策过程的不确定性,要么对典型投资者来说不透明。另一方面,均值-方差(MV)是投资组合选择的最重要标准之一。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 12:00:09
在诺贝尔奖获得者的著作【13】中提出了一个单一时期的投资组合选择标准,该标准产生了一种资产配置策略,该策略在以特定的平均回报为目标的同时,最大限度地减少了净回报的方差。MV标准的普遍性不仅在于其在捕捉从业者风险和回报之间的权衡方面的直观和透明性,还在于其与潜在的随机优化和控制问题之间的时间不一致性(或贝尔曼不一致性)这一理论上令人感兴趣的问题。在最近的一篇文章[31]中,作者建立了一个RL fr模型,用于研究连续时间MV投资组合选择,其中包含连续的portfo lio(行动)空间和财富(状态)空间。他们的框架采用了一种广义熵正则化、放松的随机控制形式,称为勘探公式,该公式最初是在【32】中开发的,目的是明确捕获连续时间优化问题在RL中勘探和开发之间的权衡。本文[31]证明了一维多变量问题的高斯探索(方差随时间衰减)的最优性,并提出了一种数据驱动的算法,即EMV算法,用于学习探索性多变量问题的最优高斯策略。仿真结果表明,EMV算法的性能优于经典的经济度量方法和深度确定性策略梯度预印本。正在进行的工作。(DDPG)算法,在仅使用一个风险集的情况下解决MV问题。这项工作有助于将[31]中的连续时间探索MV框架概括为大规模投资组合选择,风险资产的数量相对较大,可用的培训数据相对有限。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 12:00:12
我们建立了高维高斯策略的理论最优性,并设计了一个可扩展的EMV算法来直接输出portfolioallocation策略。通过转向高维度的投资组合选择,我们可以在原则上更多地利用多元化效应([14]),以获得更好的绩效,同时,也可能面临大多数深度方法所面临的样本效率低和不稳定性的挑战([6]、[8])。尽管如此,尽管EMV算法是一种策略上的方法,但由于一个可证明的策略改进定理和理论最优高斯策略和值函数的显式函数结构,它可以实现比非策略方法DDPG更好的数据效率。例如,在一项为期10年的月度阅读实验(见第5.2节)中,可用的训练数据点与测试决策时间相同,MV算法的性能仍优于本文所述的各种替代方法。为了进一步实证检验EMV算法的性能和稳健性,我们使用标准普尔500指数股票的月度和每日价格数据,对中长期投资期限进行了实验。在大多数实验中,年回报率一直超过10%。EMV alg算法也表现出了显著的普遍适用性,因为它可以在随机选择的stoc ks的不同数据集上分别进行训练和测试,并且仍然实现了竞争性和更稳健的性能(参见附录D)。2符号和背景2.1经典连续时间MV问题我们考虑连续时间(无RL)中的经典M V问题,其中投资宇宙由一项无风险资产(储蓄账户)和d项风险资产(如股票)组成。固定投资计划期限T>0。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 12:00:16
表示b y{xut,0≤ t型≤ T}一个绅士的贴现财富(即状态)过程,他用策略(政策)u={ut,0重新平衡她的投资组合(即行动),投资于风险和无风险资产≤ t型≤ T}。此处,ut=(ut,…,udt)是在时间t时d风险资产的贴现层价值。在股票价格的计量布朗运动假设和标准自我融资条件下,可以得出(见附录A),财富过程满足dxUT=σut·(ρdt+dWt),0≤ t型≤ T、 (1)初始捐赠为xu=x∈ R、 这里,Wt=(Wt,…,Wdt),0≤ t型≤ T是一个标准的d维布朗运动,定义在过滤概率空间上(Ohm, F、 {Ft}0≤t型≤T、 P)。向量ρ通常被称为风险的市场价格和σ∈ Rd×dis假设为非退化的挥发性矩阵。然后,经典的连续时间MV模型旨在解决以下约束优化问题minuvar[xuT],前提是E[xuT]=z,(2),其中{xuT,0≤ t型≤ 满足投资策略(组合)u和dz下的动态(1)∈ R是设定为t=0的投资目标,作为investmenthorizon结束时的预期目标回报【0,t】。由于目标的差异,(2)被认为是时间不一致的。在本文中,我们专注于MV问题的所谓预承诺策略,这些策略仅在t=0时是最优的。为了解决(2),首先应用拉格朗日乘子w:minuE[(xuT)]将其转化为无约束问题- z- 2w(E[xuT]- z) =分钟[(xuT- w) ]- (w)- z) 。(3) 这个问题可以用解析法求解,其解u*= {u*t、 0个≤ t型≤ T}依赖于w。然后原始约束E[xu*T] =z确定w的值。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 12:00:19
我们参考了[33]的详细推导。本文中的所有向量都被视为列向量。严格来说,2w∈ R是拉格朗日乘数。2.2探索性连续时间MV问题经典MV解决方案要求根据资产价格的历史时间序列估计市场参数。然而,正如实践中所知,很难以可行的精度估计投资机会参数,尤其是平均回报向量(又称mea n–blur问题;参见,例如,[11])。此外,经典的最优MV策略通常对这些参数非常敏感,这主要是由于将病态共价矩阵倒置以获得最优分配权重的过程。鉴于这两个问题,马科维茨解决方案可能与潜在的投资目标极为无关。另一方面,RL技术不需要,甚至经常跳过对mod e LPA参数的任何估计。Rath er、RL算法由历史数据驱动,直接输出最优(或接近最优)分配。这是通过在优化(利用)的同时,以学习(探索)的方式与未知的投资环境直接互动实现的。在[32]之后,我们介绍了状态动力学的“探索性”版本(1)。在这个公式中,控制(投资组合)过程u={ut,0≤ t型≤ T}被随机分配到RL中代表勘探,这导致了一个测量值或分布控制过程,其密度函数由π={πT,0给出≤ t型≤ T}。动力学(1)更改为xπT=ZRdρ′σuπt(u)dudt公司+ZRdu′σ′σuπt(u)dudBt,(4)其中{Bt,0≤ t型≤ T}是过滤概率空间上的一维标准布朗运动(Ohm, F、 {F}0≤t型≤T、 P)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群