全部版块 我的主页
论坛 经济学人 二区 外文文献专区
857 11
2022-06-10
英文标题:
《Robust Log-Optimal Strategy with Reinforcement Learning》
---
作者:
Yifeng Guo, Xingyu Fu, Yuyan Shi, Mingwen Liu
---
最新提交年份:
2018
---
英文摘要:
  We proposed a new Portfolio Management method termed as Robust Log-Optimal Strategy (RLOS), which ameliorates the General Log-Optimal Strategy (GLOS) by approximating the traditional objective function with quadratic Taylor expansion. It avoids GLOS\'s complex CDF estimation process,hence resists the \"Butterfly Effect\" caused by estimation error. Besides,RLOS retains GLOS\'s profitability and the optimization problem involved in RLOS is computationally far more practical compared to GLOS. Further, we combine RLOS with Reinforcement Learning (RL) and propose the so-called Robust Log-Optimal Strategy with Reinforcement Learning (RLOSRL), where the RL agent receives the analyzed results from RLOS and observes the trading environment to make comprehensive investment decisions. The RLOSRL\'s performance is compared to some traditional strategies on several back tests, where we randomly choose a selection of constituent stocks of the CSI300 index as assets under management and the test results validate its profitability and stability.
---
中文摘要:
我们提出了一种新的投资组合管理方法,称为鲁棒对数最优策略(RLOS),该方法通过二次泰勒展开逼近传统的目标函数来改进一般对数最优策略(GLOS)。它避免了GLOS复杂的CDF估计过程,从而抵抗了由估计误差引起的“蝴蝶效应”。此外,RLOS保留了GLOS的盈利能力,与GLOS相比,RLOS所涉及的优化问题在计算上更加实用。此外,我们将RLOS与强化学习(RL)相结合,提出了所谓的鲁棒强化学习对数优化策略(RLOSRL),其中RL代理接收RLOS的分析结果,并观察交易环境,以做出全面的投资决策。在多次回溯测试中,我们将RLOSRL的表现与一些传统策略进行了比较,在回溯测试中,我们随机选择CSI300指数的成分股作为管理资产,测试结果验证了其盈利能力和稳定性。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-10 01:32:13
具有强化学习的鲁棒对数优化策略Yifeng Guo XingYu Fu YuYan Shi MingWen Liu中山大学具有二次Taylor展开的传统目标函数。它避免了GLOS复杂的CDFestimation过程,从而抵抗了由估计误差引起的“蝴蝶效应”。此外,RLOS保留了GLOS的盈利能力,与GLOS相比,RLOS所涉及的优化问题在计算上更加实用。此外,我们将RLO与强化学习交易环境相结合,以做出全面的投资决策。RLOSRL的绩效结果验证了其盈利能力和稳定性。关键词:投资组合管理;数学金融学;人工智能信息论;对数最优策略;稳健性分析;强化学习;深度学习;卷积神经网络。1简介投资组合管理(PM),旨在解决理论和实践方面的平衡问题。行业提出的战略[11],将财富转化为表现最佳的资产;根据历史数据和预测,跟踪下一个交易期;元学习,结合了七个执行的集成投资政策;在我们的工作中,我们将重点放在后两种类型上,将模式匹配强化学习策略中的两种算法结合起来,形成最终的PM策略。源于信息论[1],通过选择最优投资组合来尝试收益率,是一种自然且最著名的DPM方法之一,其中出现了许多令人兴奋的结果[10,12,13]。在我们的工作中,我们将证明累积分布函数(CDF)的严格计算比LOS更实用。2具有强化学习的稳健对数优化策略引导虚拟投资组合经理以最大利润的方式进行交易。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 01:32:15
我们称之为强化学习集成(RLOSRL)。RL的进展。2一般的对数最优策略方法,通过管理一组资产到选择期,而在GLOS的背景下,正式定义GLOS,然后我们将研究信息收益、贪婪和长期优势。2.1 GLOSdX的定义=(XXXd)Tb=(bbbd)xxxix在交易pexbbibithstrategy上设定的利润开盘价,强化学习投资组合经理的使命。在GLOS的背景下,投资组合管理者将B的预期对数率最大化*X方程式:b*十、∈ arg最大值∈BrX(b)(1)rX(b)=Elog(bTX)=Rlog(bTX)dF(x)b施加在b上的约束{Xi}ni=1{Xi}ni=1相同,不同时期没有相互依赖关系。不支持。2.2光泽度特性。2.2.1信息效益信息效益。假设我们现在按{Xi}的连续分布进行交易,ni=1将被违反b*Xriod。而这些信息也带来了以下信息。每个交易期的YXY=yF(X | Y=Y)。LetbT公司*X | Ybe具有强化学习组合权重向量的最优鲁棒对数最优策略,如:bT*X | Y∈ arg最大值∈BrX | Y(b)=arg maxb∈BZlog(bTx)dF(x | Y=Y)(2)返回定义为:VY=rX | Y(bT*X | Yx)- rX | Y(bT*Xx)(3)VYS满足了一些优雅的数学性质,这些性质为它提供了一些合理的约束。定理1V=E(VY)VY公司V满意:1)VY公司≥ 02) VY公司≤RfX | Y=Y(x)logfX | Y=Y(x)f(x)dx3)五、≤RRh(x,y)logh(x,y)f(x)g(y)dxdyfgx和y分别是x和y的节理密度函数。见附录中的证明。VY公司五、VRRh(x,y)logh(x,y)f(x)g(y)dxdy,这是nxAndy之间的互信息,一个经常出现的概念xyV=依赖意味着交易策略已检测到联合密度函数。WhenXYYtion理论[1]。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 01:32:19
进一步解释本文的主要内容,并将这一途径的探索留给未来的研究。2.2.2贪婪和长期优势假设我们在一些连续交易中进行交易,pe{Xi}ni=1b*XA同情地认为最终总财富。n{bi}ni=1Sn=S∏ni=1bti使用光泽计算最终总财富*n=S∏ni=1b*提西。下一个定理指出了其他PM策略的优势。定理2 S*nis渐近优于概率为1的N。证明:见附录中的证明。3鲁棒对数优化策略给出了价格波动向量的CDFF(x),但在实践中,portF(x)实现GLOS是不可能的,他们需要从f(x)中估计f(x),优化表达式中的obRlog(bTx)dF(x)Xbrithmic运算在计算上是昂贵的。因此,我们提出了RLO,其中我们不需要tF(x)Rlog(bTx)dF(x)x平方变异系数。对于GLOS,它是鲁棒的,因为分配效用偏差的上界可以由投资组合权重向量的L范数和L范数控制∞-协方差矩阵估计量的偏差范数。4带强化学习的鲁棒对数优化策略3.1 GLOS的目标函数(分配效用)(1)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 01:32:22
然而,optimizationX在实践中很难知道。近似Elog(bTX)的X|∑Taylor展开。是RLO的目标函数,如:M(b,u,∑)=log(bTu)-2(bTu)bT∑b(4)计算详见附录。M(b|∑)M(b|∑)不涉及x的分布函数,要估计的参数只是x的期望值和协方差,这远比GLOS中的目标函数更实用,需要估计F(x)。M(b|∑)收益方差”规则【9】。3.2 RLO的最优投资组合权重向量考虑RLO中的优化问题:bopt∈ arg最大值M(b,u,∑),s.t.b∈ 对于某些自然|∑ple,我们可以解析地求解bOptca,我们取b={b | bTe=1,bTu≥ c、 其中e=(1,1,…,1)T}。第一个约束来自投资组合权重向量的定义,第二个约束考虑了解决该优化问题的最小期望条件。我们在附录中提供了计算结果。从优化过程中,我们可以发现,opt|∑u的估计值∑偏离其真实值偏差。在下一节中,我们将证明RLO是稳健的,它提供了对合理估计误差的容忍度。3.3 RLOS^bopt∑^∑^∑的稳健性分析可能会导致所谓的“蝴蝶效应”。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 01:32:25
因此,我们需要研究RLO的鲁棒性。我们首先给出两个合理的假设:1)E(^u)=^u估计。2) ithjth∑-^∑∑ijmaxi∑nj=1 |σij |≤M、 其中M是一个正常数。E(^boptT^u)=^boptTu大数定律,样本大小确定时e>0→ ∞P(|^boptT^u)-^boptTu|>e)→e>n∈ N+^b |^boptT^u-^boptTu|≤ enSimilar分析与2)相似,因此我们在此不再重复。M(^bopt^^^u∑)M(^boptu∑)RLO。定理3bTu≥ 在上述假设下,估算后RLO的偏差有一个上限|M(^bopt,^u,^∑)- M(^bopt,u,∑)|≤2c(n∑i=1 | bi |)maxi∑nj=1 |σij |(5)证明:见附录中的证明。c>∑ni=1 | bi |≤ c | M(^bopt^^^∑)- M(^bopt∑)|上界,我们添加一个额外的∑ni=1 | bi |≤ C在财务上输入参数C,这意味着禁止大额卖空。3.4实施RLOSSay我们现在在KTH交易期进行交易,为了实施RLO,投资组合经理需要通过强化学习来确定日志优化策略估计目标函数中涉及的参数:M(b,u,∑)=Log(bTu)-2(bTu)bT∑b(4)u∑xkkth周期。选择一组交易期,这些交易期之间的相似度为simkth^^∑相似,我们可以在其中了解交易期的背景。我们现在具体进入实施阶段。3.4.1市场背景的定义考虑到利润交易期的交易背景,我们将其定义为价格波动矩阵(i- n) th(一)-)交易周期。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群