全部版块 我的主页
论坛 经济学人 二区 外文文献专区
776 10
2022-06-02
英文标题:
《Inferring agent objectives at different scales of a complex adaptive
  system》
---
作者:
Dieter Hendricks, Adam Cobb, Richard Everett, Jonathan Downing and
  Stephen J. Roberts
---
最新提交年份:
2017
---
英文摘要:
  We introduce a framework to study the effective objectives at different time scales of financial market microstructure. The financial market can be regarded as a complex adaptive system, where purposeful agents collectively and simultaneously create and perceive their environment as they interact with it. It has been suggested that multiple agent classes operate in this system, with a non-trivial hierarchy of top-down and bottom-up causation classes with different effective models governing each level. We conjecture that agent classes may in fact operate at different time scales and thus act differently in response to the same perceived market state. Given scale-specific temporal state trajectories and action sequences estimated from aggregate market behaviour, we use Inverse Reinforcement Learning to compute the effective reward function for the aggregate agent class at each scale, allowing us to assess the relative attractiveness of feature vectors across different scales. Differences in reward functions for feature vectors may indicate different objectives of market participants, which could assist in finding the scale boundary for agent classes. This has implications for learning algorithms operating in this domain.
---
中文摘要:
我们引入了一个框架来研究金融市场微观结构在不同时间尺度上的有效目标。金融市场可以被视为一个复杂的适应系统,在这个系统中,有目的的主体集体地、同时地创造和感知与其交互的环境。有人建议,多个代理类在此系统中运行,具有自上而下和自下而上因果关系类的非平凡层次结构,每个层次具有不同的有效模型。我们推测,代理类实际上可能在不同的时间尺度上运行,从而对相同的感知市场状态做出不同的反应。给定特定于规模的时间状态轨迹和根据总体市场行为估计的行动序列,我们使用反向强化学习来计算每个规模上的聚合代理类的有效奖励函数,从而评估不同规模上特征向量的相对吸引力。特征向量奖励函数的差异可能表明市场参与者的目标不同,这有助于找到代理类的规模边界。这对在该领域中运行的学习算法有影响。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-2 17:20:13
在复杂自适应系统的不同尺度下推断agent目标。亨德里克斯*A、 Cobb R.Everett J.Downing S.J.Roberts机器学习研究小组牛津定量金融学院牛津大学*通讯作者:迪特尔。hendricks@eng.ox.ac.ukAbstractWe引入一个框架来研究金融市场微观结构在不同时间尺度下的有效目标。金融市场可以被视为一个复杂的适应系统,在这个系统中,有目的的主体集体地、同时地创造和感知他们与之交互的环境。有人建议,该系统中有多个代理类,具有自上而下和自下而上因果关系类的非平凡层次结构,每个层次都有不同的有效模型。我们推测,代理类实际上可能在不同的时间尺度上运行,因此对相同的感知市场状态做出不同的反应。给定规模特定的时间状态轨迹和从总市场行为估计的行动序列,我们使用反向强化学习计算每个规模的总代理类的有效奖励函数,使我们能够评估不同销售中特征向量的相对吸引力。特征向量奖励函数的差异可能表明市场参与者的目标不同,这有助于确定代理类的规模边界。这对在该领域中运行的学习算法有影响。1简介股权金融市场由多个通过集中电子交易所运作的竞争代理组成,在时间和代理类别之间产生非线性互动。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-2 17:20:16
投资者利用其对资产动态的理解来确定购买和出售决策的时间,以获得财务收益;交易员利用其对市场动态的理解来规划交易,并将实现投资决策的成本降至最低;做市商利用其对投资者需求的理解来从流动性提供中获利。市场微观结构领域[1]研究了该系统在日内时间尺度上的价格形成动力学,考虑了参与者的机械规则、监管监督和社会行为如何相互作用以体现观察到的时间序列。复杂性经济学(Complexity Economics)[2]范式试图通过复杂适应系统的视角来解释观察到的行为,在复杂适应系统中,竞争主体不断根据他们相互创造的观察状态来调整他们的行为和策略。Wilcox和Gebbie[3]进一步提出了一种自下而上和自上而下因果关系的机制,并通过噪声项建立了控制行为体和层间互动的具体有效模型。每个级别的参与者以不同的方式感知系统,这使得使用相同有效模型的层次结构来捕获系统复杂性的做法无效。我们感兴趣的是在该领域开发学习算法,在竞争代理的背景下,理解特定规模的状态表示是确保相关特征可以被利用的关键,并且有用的学习可以比系统的自然时间尺度更快地进行。Galla、Farmer和Sanders[4,5]研究了复杂游戏中agent学习的性质,使用经验加权吸引(EWA)来评估渐近学习的倾向。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-2 17:20:19
他们在第31届神经信息处理系统会议(NIPS 2017)上展示了理解代理回报(奖励)相关性的重要性,会议地点:美国加利福尼亚州长滩。arXiv:1712.01137v1【q-fin.TR】4 Dec 2017设置学习率,以确保学习可行,避免混乱状态。本研究旨在了解不同时间尺度下竞争主体的情况,探讨尺度对该领域学习策略的重要性。我们使用反向强化学习(IRL)来计算股票市场微观结构不同规模下的有效回报函数,使用规模特定的时间状态轨迹和根据总体市场行为估计的行动序列。这使我们能够识别有吸引力的状态,并评估相关特征向量在不同尺度上的吸引力。这是了解该系统不同规模的代理类的相对目标的第一步。2方法2.1状态吸引力逆强化学习SIRL旨在推断马尔可夫决策过程(MDP)中的奖励函数,该过程由元组=hS,a,P,γ,Ri定义,描述状态空间、动作空间a、转移函数P、贴现因子γ和回报。鉴于可以通过观察代理人的行为收集样本状态行动空间轨迹,目标是找到一个奖励函数,诱导代理人遵循与专家轨迹匹配的轨迹。虽然已经提出了许多IRL算法([6,7,8,9]),但我们将使用最大熵(MaxEnt)IRL[10],这代表着研究路径上概率分布的一种趋势。Ziebart等人。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-2 17:20:23
利用最大熵原理为线性奖励函数r=θ>fζ选择信息量最小的参数集,该函数是状态-动作轨迹fζ的线性组合,与agent的观察轨迹和学习者行为之间的特征期望相匹配。这个匹配方程XPathζiP(ζi)fζi=f(1)提供了最大熵的约束条件,其中f=1mPifi是移动轨迹的平均经验特征计数。因此,将沿轨迹的特征映射求和得到fζi=Psj∈ζfsj。Ziebart等人通过spaceP(ζi |θ,T)评估轨迹上的概率分布,该概率分布给出了具有相同回报、相同概率的轨迹,并赋予更高回报指数更高的偏好。请注意,这是MDP的过渡模型。最佳参数集θ*isthen通过最大化似然L(θ)获得,即θ*= argmaxθL(θ)=argmaxθXexampleslog P(|ζ|θ,T)(2)由于此函数对于确定性MDP是凸函数,我们可以使用梯度优化方法,要求了解给定的梯度L(θ)=f-XζP(¢ζ|θ,T)fζ=¢f-XsiDsifsi。(3) 该梯度表示观察到的经验预期特征计数与学习者预期特征计数之间的差异。优化过程中的难点在于计算预期状态访问频率的值,Dsito计算梯度。Ziebart等人【10】给出了Fordsia算法的详细信息。综上所述,它包括向后传递以计算EP(ζi |θ,T),然后向前传递以计算预期状态访问频率。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-2 17:20:26
请注意,大视界用于计算接近MDP有限时间视界的状态频率。我们将使用Matthew Alger提供的MaxEnt IRL实现【11】。2.2确定时间状态轨迹Shendricks等人【12】提出了一种从股市微观结构特征中检测和在线估计日内时间状态的方法。他们在不同的日历时间尺度上发现了一个有趣的系统行为层次结构,结果表明,每个尺度上的行为可能有不同的通用性等级。该方法与q-state Potts2model相似,开发了一种无监督聚类技术,与在复杂系统中发现亚稳态对象配置相一致。根据观察到的交易所主要股票的交易价格、价差、成交量和成交量不平衡特征,将时间段分为不同的状态。通过用于在线状态检测和分配的关联状态签名向量(SSV),识别重要状态。图1说明了60分钟和30分钟时间尺度的时间状态和相关特征向量。每个节点表示一个月内的一个时间段,节点着色表示一天中的时间,节点连通性表示集群(状态)成员身份。60分钟状态30分钟状态60分钟特征向量30分钟特征向量图1:(上图)每个节点代表一个时间段,彩色底纹表示一天中的时间(上午=绿色,午餐=黄色,下午=红色),节点连接度表示特定状态。(以下)各时间状态下各成员期内交易价格、价差、交易量和报价量的平均变化。我们将使用[12]中的方法,基于SSV状态分配,构建不同日历尺度下的时间状态轨迹。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群