全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1325 27
2022-06-01
英文标题:
《Risk-Aware Multi-Armed Bandit Problem with Application to Portfolio
  Selection》
---
作者:
Xiaoguang Huo and Feng Fu
---
最新提交年份:
2017
---
英文摘要:
  Sequential portfolio selection has attracted increasing interests in the machine learning and quantitative finance communities in recent years. As a mathematical framework for reinforcement learning policies, the stochastic multi-armed bandit problem addresses the primary difficulty in sequential decision making under uncertainty, namely the exploration versus exploitation dilemma, and therefore provides a natural connection to portfolio selection. In this paper, we incorporate risk-awareness into the classic multi-armed bandit setting and introduce an algorithm to construct portfolio. Through filtering assets based on the topological structure of financial market and combining the optimal multi-armed bandit policy with the minimization of a coherent risk measure, we achieve a balance between risk and return.
---
中文摘要:
近年来,顺序投资组合选择在机器学习和定量金融界引起了越来越多的兴趣。作为强化学习策略的数学框架,随机多臂bandit问题解决了不确定性条件下顺序决策的主要困难,即探索与开发的困境,因此与投资组合选择有着天然的联系。在本文中,我们将风险意识融入到经典的多武装bandit环境中,并引入了一种构建投资组合的算法。通过基于金融市场拓扑结构对资产进行过滤,并将最优多臂强盗策略与一致风险测度最小化相结合,实现了风险与收益的平衡。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-1 08:32:16
RSO。royalsocietypublishing。orgResearchArticle提交给《杂志》主题领域:数学建模、应用数学关键词:多武装匪徒、在线学习、投资组合选择、图论、风险意识、风险条件价值通信作者:晓光霍伊邮件:xh84@cornell.eduFengFue邮件:fufeng@gmail.comRisk-Aware Multi-Armedbindit Problem with Application to Portfolioselection肖光Huoand Feng Fu2,3康奈尔大学数学系,伊萨卡,纽约14850,美国数学系,达特茅斯学院,汉诺威,NH 03755,美国生物医学数据科学系,黎巴嫩达特茅斯盖塞尔医学院,NH 03756,近年来,USASequential portfolio selection在机器学习和定量金融领域吸引了越来越多的兴趣。作为强化学习政策的数学框架,托卡斯特多武装匪徒问题解决了不确定性条件下顺序决策的主要困难,即探索与开发的两难境地,因此为投资组合选择提供了一种自然的联系。本文将企业风险意识引入经典的多武装匪徒环境中,并引入一种算法来构建投资组合。通过根据金融市场的拓扑结构过滤资产,并将最优多武装匪徒政策与一致风险度量最小化相结合,实现风险与回报之间的平衡。简介投资组合选择是金融行业的一个热门研究领域,从学术研究人员到基金经理。这个问题涉及到确定投资组合中持有的资产的最佳组合,以实现投资者的目标,例如最大化相对于某些风险度量的累积回报。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 08:32:20
在金融界,解决这个问题的传统方法可以追溯到1952年马科维茨的开创性论文[1],该论文介绍了均值方差分析,也称为现代投资组合理论(MPT),并建议选择 2014作者。由英国皇家学会根据《创造性公共财产归属许可证》的条款出版http://creativecommons.org/licenses/by/4.0/,允许不受限制地使用,前提是原始作者和来源已被记入贷方。RSO。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .最大化由方差量化的特定风险水平的预期回报。另一方面,数学和计算机科学界已经开发了顺序投资组合选择模型。例如,Cover的universal portfolio strategy[2]、Helmbold的Multiplicative update portfolio strategy[3]、以及综合调查见Li&Hoi[4]。近年来,随着人工智能和机器学习方法取得了前所未有的成功,AlphaGo击败了世界冠军,OpenAI的机器人击败了专业的Dota玩家,基于机器学习的投资组合选择策略也出现了更具创造性[5,6]。包括投资组合选择,许多实际问题,如临床试验、在线广告和机器人技术,都可以建模为不确定性下的顺序决策。在这一过程中,在每次试验中,学习者都面临着一个权衡:雄心勃勃地获取新知识,还是保守地利用现有知识,这通常被称为探索与利用的两难境地。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 08:32:23
随机多臂bandit问题通常被理解为一个单状态马尔可夫决策过程(MDP),它为研究顺序决策提供了一个非常直观的数学框架。此设置的抽象包括一组K台老虎机和一系列N次尝试。每次试验t=1,N、 学员选择使用其中一种机器∈{1,…,K}并从相应的固定但未知的概率分布νIt中随机抽取奖励RIt,t,其平均值为uIt。在经典设置中,假设同一台机器在不同时间内的随机奖励是独立且分布相同的,不同机器的奖励也是独立的。学习者的目标是制定一项政策和分析算法,规定在每次试验中使用哪台机器,以最大限度地提高累积回报。衡量政策绩效的一个重要指标是经过一些n次试验后的遗憾,其定义为ξ(n)def=max我∈[1,K]nXt=1Ri,t-nXt=1RIt,t.(1.1)。然而,在随机模型中,比较期望中的奖励和使用伪后悔更为直观[8]。设Ti(n)为机器i在前n次试验中播放的次数,并设u*= 最大{u,…,uK}。然后,bξ(n)def=nu*- EnXt=1位,t=X1≤我≤K、 ui<u*(u*- ui)E[Ti(n)](1.2)因此,学习者最大化累积回报的目标相当于最小化后悔。总后悔的最佳可能增长率的渐近下界由I和Robbins[9]证明,即O(对数n),系数由每台机器的次优性和Kullback-Leibler散度确定。从那时起,人们提出了各种在线学习策略[10],其中UCB1策略是在Auer et al。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 08:32:26
[11] 被认为是最优的,将在章节方法和模型中详细介绍。虽然学术界对经典的多武装匪徒进行了深入的研究,但提出了该问题的一些变体来模拟不同的真实场景。例如,Agrawal和Goyal[12]考虑了具有线性奖励函数的上下文bandit,并分析了Thompson采样算法的性能。Koulouriotis和Xanthopoulos【13】研究了机器奖励分布在固定时间变化的非平稳环境。一个更重要的变量是风险意识设置,学习者在目标中考虑风险,而不是简单地最大化累积回报。这一变体与投资组合选择问题密切相关,在投资组合选择问题中,风险管理是一个不可或缺的问题,已经在几篇论文中讨论过。例如,Sani等人[14]研究了学习者的目标是最小化定义为σ的均值方差的问题- ρu并提出了两种算法,MV-LCB和ExpExp。在类似的背景下,Vakili和Zhao【15】对Sani等人提出的算法的性能进行了更深入的分析【14】。此外,Vakili&Zhao【16】通过考虑时间范围结束时总回报的平均方差和风险值,扩展了该设置。在更普遍的情况下,Zimin等人【17】将目标设定为Meansos的函数。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .方差f(u,σ)定义了在特定条件下实现理想性能的Д-LCB算法。此外,Galichet等人。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 08:32:29
[18] 选择风险条件值作为目标,并提出了MARAB算法。这些工作为我们在模型中考虑风险提供了灵感,但它们并不直接适用于投资组合选择问题,因为这些方法在每次试验中只选择最好的单机。为了解决这一问题,需要首先在初步阶段以战略和逻辑的方式选择巴斯克托夫候选投资组合。例如,Shen等人[19]使用主成分分析(PCA)选择候选投资组合,即资产收益协方差矩阵的归一化特征向量。在我们的模型中,我们首先采用图论方法过滤并选择一篮子资产,我们使用这些资产构建投资组合。然后,在每次试验中,我们将由最优多臂bandit算法确定的单资产组合与全局最小化一致风险度量(条件风险价值)的组合相结合。本文的其余部分组织如下。在“方法和模型”部分,我们描述了多武装匪徒环境下的投资组合选择问题,并详细描述了我们的方法。在结果部分,我们给出了使用该方法的仿真结果。在讨论与结论部分,我们讨论了结果,并为未来的研究提供了方向。2、方法和模型(a)问题公式在本节中,我们将经典的多臂bandit设置修改为投资组合选择模型。考虑一个拥有大量资产的金融市场,学习者从中选择一项basketof K资产进行一系列N次试验。每次试验t=1,N、 学习者选择一本书ωt=ω1,t,ωK,t>其中ωi,是资产i的重量。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群