全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1539 25
2022-06-06
英文标题:
《The QLBS Q-Learner Goes NuQLear: Fitted Q Iteration, Inverse RL, and
  Option Portfolios》
---
作者:
Igor Halperin
---
最新提交年份:
2018
---
英文摘要:
  The QLBS model is a discrete-time option hedging and pricing model that is based on Dynamic Programming (DP) and Reinforcement Learning (RL). It combines the famous Q-Learning method for RL with the Black-Scholes (-Merton) model\'s idea of reducing the problem of option pricing and hedging to the problem of optimal rebalancing of a dynamic replicating portfolio for the option, which is made of a stock and cash. Here we expand on several NuQLear (Numerical Q-Learning) topics with the QLBS model. First, we investigate the performance of Fitted Q Iteration for a RL (data-driven) solution to the model, and benchmark it versus a DP (model-based) solution, as well as versus the BSM model. Second, we develop an Inverse Reinforcement Learning (IRL) setting for the model, where we only observe prices and actions (re-hedges) taken by a trader, but not rewards. Third, we outline how the QLBS model can be used for pricing portfolios of options, rather than a single option in isolation, thus providing its own, data-driven and model independent solution to the (in)famous volatility smile problem of the Black-Scholes model.
---
中文摘要:
QLBS模型是一种基于动态规划(DP)和强化学习(RL)的离散时间期权套期保值和定价模型。它结合了著名的RL Q学习方法和Black-Scholes(-Merton)模型的思想,将期权定价和套期保值问题简化为由股票和现金组成的期权的动态复制投资组合的最优再平衡问题。在这里,我们使用QLBS模型扩展了几个NuQLear(数值Q学习)主题。首先,我们研究了模型RL(数据驱动)解决方案的拟合Q迭代的性能,并将其与DP(基于模型)解决方案以及BSM模型进行比较。其次,我们为模型开发了一个反向强化学习(IRL)设置,在该设置中,我们只观察交易者采取的价格和行为(重新对冲),而不观察回报。第三,我们概述了QLBS模型如何用于期权组合定价,而不是孤立的单个期权,从而为Black-Scholes模型著名的波动率微笑问题提供了自己的、数据驱动的和模型独立的解决方案。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-6 16:52:06
QLBS Q-Learner采用NuQLear:Fitted Q Iteration、Reverse RL和Option PortfoliosIgor HalperinNYU Tandon工程学院邮件:igor。halperin@nyu.eduJanuary2018年1月19日摘要:QLBS模型是一种基于动态编程(DP)和强化学习(RL)的离散时间期权套期保值和定价模型。它结合了著名的RL Q-Learningmethod和Black-Scholes(-Merton)模型的思想,将期权定价和套期保值问题简化为由股票和现金组成的期权的动态复制投资组合的最优再平衡问题。在这里,我们使用QLBS模型扩展了几个NuQLear(NumericalQ学习)主题。首先,我们研究了适用于模型的RL(数据驱动)解决方案的拟合迭代的性能,并将其与DP(基于模型)解决方案以及BSM模型进行了比较。其次,我们为模型开发了反向强化学习(IRL)设置,在该设置中,我们只观察交易者的价格和行为(重新对冲),而不观察回报。第三,我们概述了QLBS模型如何用于期权定价组合,而不是孤立的单个期权,从而为Black Scholesmodel著名的波动率微笑问题提供了自己的、数据驱动和模型独立的解决方案。我要感谢埃里克·伯杰和维韦克·卡普尔的激励性讨论。我感谢Bohui Xi、TianruiZhao和Yuhan Liu初步实现了QLBS模型的DP解决方案。1简介在参考文献[1]中,我们提出了QLBS模型——一种基于动态规划(DP)和强化学习(RL)的离散时间期权套期保值和定价模型。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 16:52:14
它将著名的RL Q学习方法【2,3】与Black-Scholes(-Merton)模型的思想相结合,将期权定价和套期保值问题简化为由股票和现金组成的动态重复投资组合的最优再平衡问题【4,5】。简而言之,著名的布莱克-斯科尔斯-默顿(Black-Scholes-Merton,BSM)模型,也称为布莱克-斯科尔斯(BlackScholes,BS)模型[4,5],表明尽管期权价格在未来可能(也将)发生变化,因为它取决于未知的未来股价,但通过使用相同商品的一个价格原则,可以找到唯一的公平期权价格,以及复制定价方法。这假设了一个持续的重新套期保值和一个特殊的(对数正态)股价动态选择。然而,期权价格如此明显的唯一性也意味着,在这些假设下,期权是完全多余的,因为它们总是可以通过股票和现金组成的简单投资组合完美复制。如【1】中更详细的论述,BSM模型中期权的明显冗余是由于后一种模型是在连续时间限制内制定的t型→ 0,套期保值以零成本持续重新平衡。在这样的学术限制下,期权是无风险的,因此是完全多余的,因为它在任何时候都等于股票和现金的动态组合。在任何其他情况下,即当时间步长t>0时,期权头寸中的风险无法完全消除,但通过在期权基础股票的有效头寸中进行适当选择,即通过最佳对冲,最多可以将风险降至最低。但在现实生活中,期权对冲的重新平衡总是以一定的频率发生t>0,例如每日、每月等。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 16:52:22
因此,保持时间步长在期权头寸中控制风险的同时进行确定对于在任何期权定价模型中保持现实性至关重要。而经典的BSM模型在数学极限内给出了期权价格和套期保值的优雅闭合形式表达式t型→ 0,这使得其理论上的“风险中性”期权价格和套期保值在实践中存在问题,即使是作为现实世界的“零阶”近似值。事实上,由于金融市场正从事交易风险业务,任何有意义的“零阶”近似值都应考虑金融期权和其他衍生工具固有的风险。有人可能会说,在风险期权交易业务中使用均衡的“风险中性”框架进行期权定价和对冲,类似于从均衡热力学开始解释生物系统。虽然将生命描述为对非生命(这是平衡热力学中唯一可能的状态)的“修正”是荒谬的,但在连续时间数学金融学中开发的各种波动率微笑模型在期权定价中对金融风险的处理基本上是相同的。事实上,为了将基于模型的“风险中性”期权价格调整为风险期权的市场价格,传统的局部和/或随机波动率模型(见[6])来到了Athenato的圣坛,要求她在最初的BSM模型中刚刚设计好的粘土波动率表面中注入活力!这是因为后一种模型基于两个关键假设:1)有可能进行持续的再套期保值,从而产生均衡的“风险中性”期权价格;2)世界是对数正态的,波动率固定,这意味着波动率曲面是期权行使和到期的函数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 16:52:25
因为这两个假设在实践中都被违反了,原始的BSM模型与数据相矛盾,这使得它在某种程度上介于纯数学的“经济学”与理性预期理论之间,理性预期理论坚持认为,未来只有一个与之对应的最优观点,最终所有市场参与者都会围绕这一观点趋同。这一假设是荒谬的,但为了让经济理论在牛顿物理学上建模,它是必要的。”(G.索罗斯)。我感谢Vivek Kapoor提供的参考。ematical模型,以及一种技术工具,用于将市场期权价格作为BS隐含波动率报价,并使用其对股票波动率的敏感性(“vega”敏感性)和其他BS敏感性参数(“希腊”)对期权进行风险管理。通过切换到比原始BSM模型更好地“匹配市场”的本地或随机波动率模型,可以“修复”与市场数据的不匹配。但这有点“科学”货运崇拜的味道,PDE和GPU取代了稻草飞机和木制飞机。无论随机波动率模型对市场价格的拟合程度如何,它们都是交易中需要回答的第一个问题,即任何给定期权合同中的预期风险问题。他们对这样一个基本问题直截了当的回答是:“现在,你没有这个选择的风险,先生!”不用说,在物理学中,调整普朗克常数以实现与数据的一致性的量子模型将被视为毫无意义,因为普朗克常数是一个无法改变的常数,因此任何“对~”的敏感性都是毫无意义的(但请参见[7])。然而,自1974年以来,通过将模型常数(波动率)提升为变量(局部或随机波动率)对原始BSM模型进行可能有问题的调整,以使模型与市场数据相协调,已成为市场标准。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 16:52:29
主要原因是人们普遍认为,经典BSM模型在连续时间限制下的分析可处理性优势t型→ 0超过了其主要缺点,如与数据不一致,因此需要在原始模型中使用“fix”,如引入非恒定波动率。然而,这只带来了理论上的(和实践上的!)建模方面的噩梦,在经典的BSM模型和其他数学金融的连续时间模型中被随意丢弃但存在于市场数据中的金融风险,试图通过模型和市场行为之间的不匹配使其回到游戏中。萨蒂亚吉特·达斯(Satyajit Das)[8]将这一结果生动地描述为从业者的“希腊悲剧”。这些数学金融模型的主要问题是,它们将两个不同的问题与原始BSM模型结合在一起:(i)限额内没有风险t型→ 0和(ii)BSM模型中假设的真实世界股价动态和对数正态动态之间的差异。相反,QLBS模型按顺序处理这两个问题。它从BSM模型的离散时间版本开始,并将最优期权套期保值和定价问题重新表述为在连续马尔可夫决策过程(MDP)中通过套期保值实现风险最小化的问题。当转移概率和奖励函数已知时,该模型可通过DP求解。这就产生了期权价格和对冲的半解析解,它只涉及数值实现的矩阵线性代数[1]。另一方面,我们可能只知道MDP模型的一般结构,而不知道它的具体情况,如转移概率和奖励函数。在这种情况下,我们应该仅依靠数据样本来求解此类MDP模型的Bellman最优方程。这是强化学习的一部分,参见。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群