全部版块 我的主页
论坛 经济学人 二区 外文文献专区
649 13
2022-06-24
英文标题:
《Risk-Sensitive Compact Decision Trees for Autonomous Execution in
  Presence of Simulated Market Response》
---
作者:
Svitlana Vyetrenko, Shaojie Xu
---
最新提交年份:
2021
---
英文摘要:
  We demonstrate an application of risk-sensitive reinforcement learning to optimizing execution in limit order book markets. We represent taking order execution decisions based on limit order book knowledge by a Markov Decision Process; and train a trading agent in a market simulator, which emulates multi-agent interaction by synthesizing market response to our agent\'s execution decisions from historical data. Due to market impact, executing high volume orders can incur significant cost. We learn trading signals from market microstructure in presence of simulated market response and derive explainable decision-tree-based execution policies using risk-sensitive Q-learning to minimize execution cost subject to constraints on cost variance.
---
中文摘要:
我们展示了风险敏感强化学习在限额订单市场中优化执行的应用。我们用马尔可夫决策过程表示基于极限订单书知识的订单执行决策;并在市场模拟器中培训交易代理,该模拟器通过从历史数据中综合市场对代理执行决策的反应来模拟多代理交互。由于市场影响,执行大量订单可能会产生巨大的成本。我们在模拟市场反应的情况下,从市场微观结构中学习交易信号,并使用风险敏感Q-学习推导基于可解释决策树的执行策略,以最小化成本方差约束下的执行成本。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-24 02:44:19
在模拟市场响应存在的情况下,用于自主执行的风险敏感紧凑决策树Vitlana Vyetrenko*Shaojie XuAbstractRegulation学习以优化有限订单市场的执行。我们表示,在市场模拟器中,根据限价订单账簿对交易代理进行培训,从而通过综合历史数据来实现多代理交互。由于市场影响,存在模拟市场响应的微观结构,并使用风险敏感Q-学习推导出基于决策树的可解释执行策略,以在成本差异约束下最小化执行成本。美国电气和计算机工程部,乔治亚州:Svitlana Vyetrenko。svyetrenko@jpmorgan.com>.作者于2019年*如有更改,恕不另行通知。本文的产品并非具有促进市场研究独立性的法律要求,包括但不限于禁止交易主管传播投资研究。本文并非市场调查、推荐、建议或参与任何交易的报价。这不是一份市场研究报告,也不打算这样做。过去的表现不代表税务、会计或任何其他方面,包括对您特定情况的适用性影响。J、 P.Morgan拒绝以任何方式使用本材料。1、引言1.1。问题陈述今天交易的市场量越来越大,电子交易场所表明市场订单的“买入”和“卖出”兴趣目标是可用流动性的即时消费限制订单在LOB中排队等待市场参与者账簿旁边的剩余订单(Bouchaud et al.,2002)。因此,下达限额订单不会产生差价成本。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 02:44:22
当限价单等待与队列中的对方兴趣匹配时,它将离开。图1显示了一个可视化LOBstructure的图表。成交量价格1000200300美元25.08美元25.10美元25.12美元25.14美元25.06买入价卖出价卖出价卖出价买入价限价订单被添加到队列中。我们正在解决最小化风险调整的问题。立即执行大额市场订单将导致不利动作2015)。因此,市场参与者对min1感兴趣。如何将大型父订单拆分为小型子订单,以及在什么时候执行子订单?风险敏感的紧凑决策树,用于在模拟市场响应存在的情况下自主执行2。限制订单)或在其他市场参与者在场的情况下积极(即通过市场订单)?基于马尔可夫决策过程从LOB知识中获得的信号进行决策;并训练执行代理执行决策树给出的执行策略。1.2. 相关的workVWAP),父订单执行计划为已知的HeadVWAP(批量加权平均价格)策略,子订单的数量按照给定时间段内观察到的或预测的市场容量成比例分配。最小化总预期执行成本加上常数λ>0的独立价格回报。常数λ的选择取决于交易者对风险厌恶的直觉。马尔可夫决策过程(MDP)和动力学的发展被编码为移动应用程序的转移概率,系统的统计信息通常是未知的,而交易环境的动态性是明确的。可以以表格形式学习小型的最优策略。Asupon表格Q学习。对于连续状态空间,使用函数近似推导RL做市策略。采用基于策略梯度的RL算法签名。(Neuneier,1997)提出了一种基于Q学习的算法,用于动态和投资组合统计。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 02:44:25
在上述工作中,Q值是半梯度法。在设计基于RL的交易系统时,重要的是要考虑所学交易策略的可解释性。由于学习到的策略本质上是来自Veloso,1998)的函数映射,显示了如何为连续状态空间RL构建基于决策树的分类,其中状态变量数量的交替也可以改善Geist等人,2012)可以提高我们对有助于自主交易代理构建的信号的理解。然而,预期回报,由于其代表的风险,收到的回报的差异在金融应用中也非常重要。累积奖励的方差来自于在每个节点接收到的随机奖励,而这些算法很难转移到RL。(Bertsekas,1995)建议使用扩充状态空间,引入过去奖励。然而,这种方法可以显著增加状态空间,并导致学习算法效率低下,方差很大。对时间差的敏感转换函数在模拟市场响应执行策略设计的情况下,用于自主执行的风险敏感紧凑决策树。1.3. 我们的贡献本文的主要贡献是建立一个模型,为算法exedata导出紧凑的决策树策略,如果代理的规模来自历史数据,则没有考虑代理与攻击性交易的潜在市场影响之间的相互作用。提议更现实。(Mihatsch&Neunier,2002年)。请注意,通过这样做,我们不需要对奖励差异进行任何假设。交易信号,并能够解释代理人的风险。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 02:44:28
HistoricalLOB数据通常是有噪声的,因此,训练具有固有较少自由度的代理可以潜在地防止过度匹配。对于决策树执行代理培训:1。模拟器:构建LOB模拟器,能够综合激进交易的市场影响(第2节)。2、风险敏感Q-学习:通过风险敏感表格Q-学习得出决策树策略(决策树基础是从学习的表格策略推断出来的)(第3节和第4.2节)。通过最小二乘策略迭代选择特征:给定大量预选输入特征的统计显著特征数(第3.3节)。2、模拟市场环境2.1。模拟器假设SLOB使用多个LOB级别的价格和数量以及有关restingtrading代理队列位置的历史信息。当代理决定在我们的队列订单位置之外放置一个新的被动订单时,因为我们没有队列后面的信息、队列前面的信息、统一的区域信息等),因此,被动订单将根据历史LOB变化和我们的取消假设进行跟踪,并在历史交易发生时执行。我们假设最高级别的流动性可用。在模拟市场环境中剪切,历史数据的市场响应顺序在模拟环境中被动重放队列。第2.2节详细描述了模拟市场对我们积极交易的反应。此外,我们还对代理的放置决策与这些决策到达exchange的时间之间的延迟进行建模。延迟分布假设。综上所述,可以将LOB模拟器视为一个多代理的决策,前提是对匹配定义一组模拟参数ψ的某些假设。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 02:44:32
我们尽可能地选择ψ。风险敏感的紧凑型决策树,可在模拟市场响应市场信号、换货订单投放交易代理市场环境其他参与者跨代理模拟市场环境模拟市场响应市场信号、换货订单投放图2的情况下自主执行。代理人。更正式地说,将执行成本的样本空间设为sp(c),c∈ C▄Pψ(C)随机时间。然后我们可以通过实验找到一组模拟器参数ψ*使得P(c)和▄Pψ(c)之间的Kullback-Leibler发散度最小化:ψ*= arg最小ψXc∈CP(c)lnP(c)~Pψ(c)。(1)2.2. 市场影响与我们的执行代理方在timet相反。我们为价格动态建模:1。不利的价格变动很可能是对我方代理行为的回应。2、在TickTimCreces或TickTimCreces采取激进行动后,在TickTimMediately出现不利价格波动的可能性。3、当VT上升时,在Tickt采取激进行动后,在Tickt立即出现不利价格波动的可能性会降低。t需要从历史LOB时间序列中分离出来,以便在时间t中达到多个级别。同样,定义为向量。此外,净利润*> t是在我们的代理人采取行动后,下一次价格向相反方向剧烈波动的时候。下一个时间步t在时间t后的积极行动为^Yt=Yt,如果vtot>CMI(2)^Yt=Yt*, ifvtot公司≤ CMI,(3)CMI>0阈值,低于该值时,大小顺序会将市场移动到≤ CMI^yt从历史时间序列yt开始,直到下一次历史上积极的代理人方向交易或历史市场反向移动发生。CMI公司∈ ψ可以通过使用冲击将根据历史数据减少来获得。3、代理人培训与市场互动,在限制风险偏好的情况下,将累计执行成本降至最低。3.1.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群