全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1773 34
2022-06-14
英文标题:
《Model-Free Reinforcement Learning for Financial Portfolios: A Brief
  Survey》
---
作者:
Yoshiharu Sato
---
最新提交年份:
2019
---
英文摘要:
  Financial portfolio management is one of the problems that are most frequently encountered in the investment industry. Nevertheless, it is not widely recognized that both Kelly Criterion and Risk Parity collapse into Mean Variance under some conditions, which implies that a universal solution to the portfolio optimization problem could potentially exist. In fact, the process of sequential computation of optimal component weights that maximize the portfolio\'s expected return subject to a certain risk budget can be reformulated as a discrete-time Markov Decision Process (MDP) and hence as a stochastic optimal control, where the system being controlled is a portfolio consisting of multiple investment components, and the control is its component weights. Consequently, the problem could be solved using model-free Reinforcement Learning (RL) without knowing specific component dynamics. By examining existing methods of both value-based and policy-based model-free RL for the portfolio optimization problem, we identify some of the key unresolved questions and difficulties facing today\'s portfolio managers of applying model-free RL to their investment portfolios.
---
中文摘要:
金融投资组合管理是投资行业最常见的问题之一。然而,在某些条件下,Kelly准则和风险平价都会崩溃为均值方差,这意味着可能存在投资组合优化问题的通用解决方案,这一点尚未得到广泛认可。事实上,在一定的风险预算下,使投资组合的预期收益最大化的最优成分权重的顺序计算过程可以被重新表述为离散时间马尔可夫决策过程(MDP),因此可以被表述为随机最优控制,其中被控制的系统是由多个投资成分组成的投资组合,控件是其组件权重。因此,可以使用无模型强化学习(RL)解决该问题,而无需了解特定的组件动力学。通过检查投资组合优化问题中基于价值和基于政策的无模型RL的现有方法,我们确定了当今投资组合经理在将无模型RL应用于其投资组合时所面临的一些尚未解决的关键问题和困难。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--
一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-14 10:58:45
金融投资组合的无模型强化学习:简短调查Yoshiharu Sato+第一版:2019年3月24日本版:2019年5月3日摘要金融投资组合管理是投资行业最常遇到的问题之一。然而,Kelly准则和风险平价在某些条件下都会崩溃为均值方差,这一点尚未得到广泛认可,这意味着可能存在投资组合优化问题的通用解决方案。事实上,在一定的风险预算下,使投资组合的预期收益最大化的最优成分权重的顺序计算过程可以被重新表述为离散时间马尔可夫决策过程(MDP),因此也可以被表述为随机最优控制,其中被控制的系统是一个包含多个投资成分的投资组合,控件是其组件权重。因此,可以使用无模型强化学习(RL)解决该问题,而无需了解特定的组件动力学。通过检查投资组合优化问题中基于价值和基于政策的无模型RL的现有方法,我们确定了当今投资组合经理在将无模型RL应用于其投资组合时面临的一些关键问题和困难。关键词:强化学习、投资组合管理、量化金融+电子邮件:yoshi2233@protonmail.ch.网址:yoshi2233。惊人的简介强化学习(RL)[1]产生自主代理,这些代理通过试错学习的最佳行为与环境交互。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 10:58:49
在过去几年中,深度神经网络(DNN)的快速发展使得DRL能够用高维状态-动作空间解决决策问题,从而建立了深度强化学习(DRL)领域,该领域在玩视频游戏和棋盘游戏方面取得了巨大成功。Deep Q-Network(DQN)[2]及其各种扩展(如Rainbow[3])可以通过仅仅观察屏幕像素来学习在超人级别上玩一系列2600款游戏。近几年,一种称为AlphaGo的混合DRL算法在围棋游戏中击败了一位人类世界冠军,而其更高级和更通用的版本AlphaZero令人信服地击败了国际象棋、围棋和Shogi中的世界冠军程序,因为它不具备基本规则以外的任何领域知识。在这些成功的DRL算法的启发下,近年来,越来越多的已发表文献将RL应用于动态财务决策问题。例如,Gervais等人[6]构建了一个马尔可夫决策过程(MDP),并通过策略迭代针对工作证明(PoW)区块链优化对抗策略(双重支出和自私挖掘[7])。Halperin[9]为Black-Scholes-Merton(BSM)模型的离散时间版本构建了一个MDP[10][11],并使用无模型Q学习证明了股票期权的最优套期保值和定价[12]。Buehler等人[13]提出了一个DRL框架,以对冲交易成本下的衍生品组合,该框架不依赖于特定的市场动态。Jiang等人【14】使用无模型深层决定论策略梯度(DDPG)[15]动态优化加密货币投资组合。同样,Liang等人。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 10:58:57
[16] 通过使用DDPG和Proximal Policy Optimization(PPO)优化股票投资组合【17】。动态投资组合优化确实是投资行业从业者最常遇到的问题之一。它的三个主要范式是1)均值方差、2)凯利准则和3)风险平价。均值方差计算效率边界(EF),EF定义为在任何给定风险水平下产生最高可实现平均超额回报的投资集合。凯利准则最大化了投资组合的预期几何增长率。风险平价通过与不同投资组合组成部分的回报波动率成反比的权重来平衡不同投资组合组成部分的风险。实际上,Kelly准则是均值-方差的一种特殊情况,在收益相关性和Sharpe比率的某些条件下,风险平价会崩溃为均值-方差。这两个事实意味着投资组合优化问题可能有一些普适解。问题是确定最佳投资组合权重(组成部分投资的资本配置分数)的动态跨期过程,该权重能够在一定的风险预算下最大化投资组合的预期回报。未来市场状态的不确定性(即投资回报很难以足够的精度连续预测)使其成为连续状态和行动空间中的随机最优控制问题,这一问题可以通过无模型RL来解决。本文简要介绍了投资组合优化问题中基于价值和基于策略的无模型RL方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 10:59:03
通过检查针对该问题的现有方法,我们确定了当今投资组合经理在将无模型RL应用于其投资组合时所面临的一些尚未解决的关键问题和困难。本文的组织结构如下。在第二章中,我们回顾了三种主要的投资组合范式,并推导出它们的等价性。在第三章中,我们将研究应用于投资组合优化问题的各种无模型RL方法。在第4章中,我们对无模型RL的问题进行了详细的讨论。投资组合优化在本章中,我们首先简要概述了投资组合优化的三个主要范式,即均值方差、凯利准则和风险平价。随后,我们通过推导马科维茨-凯利等价和马科维茨-RP等价,证明了后两者都崩溃为均值方差。2.1. 均值方差马科维茨的现代投资组合理论(MPT)[19]是投资组合优化的主导范式。它包括计算均值-方差有效边界(EF),该边界被定义为一组投资,这些投资相对于以标准偏差衡量的任何给定风险水平的无风险利率产生最高的可实现平均超额回报。具体来说,考虑一个由n个投资组成的宇宙,其回报为x,平均值为μ,标准偏差为σ,协方差矩阵为∑=[σij](其中σii=σi2,σij=ρijσiσj,对于i≠  j) ,以及投资组合权重向量ω。通过最小化拉格朗日函数w.r.t.ω:L(ω,γ,λ)=12ωt∑ω,可获得无约束投资组合优化问题(即完全投资∑ωi=1,目标平均值μp)的解-γ(ωT1n-1)-λ(ωTμ-μp)(1)其中γ和λ是乘数,ωT∑ω是投资组合方差Var(ωTx),1n是n个1的向量。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 10:59:07
解析解见【22】,但遗憾的是,解析解不实用,因为获得的权重非常不稳定,可能是负值。对于不等式约束优化问题(不存在解析解),Markowitz开发了临界线算法(CLA)[20][21],它不仅优化了受线性不等式约束的一般二次函数,而且还保证了在经过有限次迭代以及整个EF后可以找到精确的数值解。使用CLA可以构建最小方差投资组合(MVP),它是经过训练的EF(不允许卖空)中最左边的投资组合,以及最大夏普比率投资组合(MSRP;又称相切投资组合)1。然而,众所周知,CLA解是不稳定的,因为回报预测的微小偏差将导致算法产生截然不同的投资组合【23】。这是因为当协方差矩阵在数值上是病态的(即,具有高条件数)时,精度矩阵或反向协方差矩阵容易出现较大的错误【24】。洛佩斯·德普拉多(López de Prado)[25]对此问题进行了详细讨论。也就是说,当我们向投资组合中添加相关的多重共线投资时,协方差矩阵的条件数会增加,在某一点上,该数字会变得非常高,以至于数值误差使精度矩阵太不稳定,以至于协方差矩阵中的任何条目上的微小变化都会导致非常不同的相反结果。因此,组合成分之间的多重共线性越强,协方差矩阵的条件数越高,因此精度矩阵越不稳定。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群