全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-6-10 03:10:40
对于单个大型投资者的推断,T应设置为投资者的明确规划范围。该算法给定迭代中的所有后续计算均针对该小批量进行。我们定义了小批量asFb(ω,θ)=NbXb=1TXt=0F(ω,θ,t)(102)的自由能,其中F(ω,θ,t)在公式(95)中定义,而在这里我们添加了第三个参数,以强调观测中的时间依赖性。在E步中,我们将Fb(ω,θ)相对于变分参数ω最大化。在M步中,我们计算G函数参数的更新,策略πθ作为θ的函数,然后使用这些表达式计算Fb(ω,θ)作为θ的函数。具体操作如下。在步骤1中,使用公式(A.14)计算下一次F函数的期望值,该公式用作模型参数的更新方程,或在从时间t=t的固定终端条件开始的反向递归中计算单个投资者的IRL。在步骤2中,我们使用公式(A.8)计算奖励。在步骤3中,使用等式(A.17)执行Qfunction的更新。在步骤4中,使用ingeq计算time-t F函数。(A.23)。最后,在步骤5中,使用公式(100)重新计算作为θ函数的最优策略。通过计算小批量中所有跃迁的这些量,我们得到了小批量的自由能(102)。这用于使用学习率αθ生成θ当前估计的更新。然后使用θ的新更新值来更新策略πθ的参数^A(k)、^A(k)和∑(k)po。然后,算法继续进行下一次迭代。数据:一系列状态和信号结果:奖励函数、最优策略和值函数设置学习率αθ、αω、批量Nb、初始参数θ(0)、ω(0)、^a(0)、^a(0)、σ(0)pSet k=1,同时不收敛,绘制一个新的小批量NbT步进轨迹(yt。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:10:43
,yt+T)(可以为市场投资组合设置T=1)E-step:计算自由能Fb(ω,θ(k-1) )使用公式(102)更新识别模型参数ω(k)=(1- αω)ω(k-1)+ αωωFb(ω,θ(k-1) M步:最大化Fb(ω(k),θ)作为θ的函数:对于每个过渡(yt,yt+1)(对于单个投资者,取t=t-1.0)do1。计算时间t+1.2时F函数在时间t的期望值。计算报酬作为θ的函数。3、使用步骤1和2在时间t4更新Q函数。计算时间t.5时F函数的值。通过更新其均值和方差,将策略分布πθ(at | t,yt)重新计算为θ的函数。end使用公式(102)计算小批量的自由能Fb(ω(k),θ)更新参数向量θ(k)=(1- αθ)θ(k-1)+ αθθFB(ω(k),θ)使用新值θ(k)计算^A(k),^A(k),∑(k)pIncrement k=k+1算法1:自由能(IH-IF)变分EMIRL算法的看不见的手推断,该算法从市场投资组合或单个投资者的价格和信号的历史中学习奖励函数、最优策略和价值函数。6市场组合的IRL当行为不可观测或不可观测时,变分EM公式(95)提供了一种通用且可跟踪的算法,用于根据股票资本化的观测数据估计原始模型参数。以这种方式解决问题所需付出的代价是需要指定一个具有自身参数ω的变分分布,并以变分EM算法指定的方式联合估计这些参数。正如我们接下来将要展示的那样,只需将公式(100)插入市场回报模型(11),就可以获得另一种更简单的估算模型方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:10:46
为此,我们注意到,一旦我们得到公式(100),我们就可以“忘记”它是如何使用RL、IRL、神经科学等推导出来的。,并简单地将其视为一个具有自由可调参数^a、^a和∑p的模型。公式(11)中的(100)给出了一个纯粹的市场收益计量模型,该模型可以单独作为一个模型来看待(和估计)。如下所示,这产生了一个预测股票回报率均值回归的模型。6.1市场动态:动态生成的均值反转回想一下,对于N只股票的向量,我们引入了一个大小为2N的作用向量at=[u(+)t,u(-)t] 因此,行动ut被定义为两个非负数ut=u(+)t的差异- u型(-)t=[1,-1] 在≡ 1吨-1at。因此,at的联合分布=[u(+)t,u(-)t] 由我们的高斯策略πθ(at | yt)给出。这意味着ut=u(+)t的分布-u型(-)这也是高斯分布。让我们这样写:πθ(ut | yt)=N(ut | U+Uyt,∑U)(103),这里U=1T-1A和U=1T-1A。公式(103)表示utis是一个高斯随机变量,我们可以这样写:ut=U+Uyt+ε(U)t=U+U(x)xt+U(z)zt+ε(U)t(104),其中ε(U)t~ N(0,∑u)是高斯随机噪声。这个表达式最重要的特征是,我们需要进一步研究它对状态xt的线性依赖性。如等式所示。(99)和(100),上面发展的变分EM算法表明,这种依赖性的系数应该是非消失的。这是本文中开发的模型的唯一结果,我们将在本节中使用该模型,以便根据我们的方法构建一个简单的动态市场模型。为了得到模型中的非负市场价格,我们使用等式(104)的确定性限制,其中,我们将U=U(z)=0,并替换U(x)→ φ来简化符号。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:10:49
Wethus得到一个简单的确定性策略ut=φxt(105)。接下来,让我们回顾一下等式。(7) 和(11),我们重复的是替换W→ w和M→ u:xt+1=(1+rt)o (xt+ut)rt- rf1=wzt- uut+ε(r)t(106),其中rf为无风险利率,zt为因子加载矩阵w的预测向量,u为具有线性影响规格的永久市场影响矩阵,ε(r)为Ehε(r)ti=0且Varthε(r)ti=∑r的残差向量。一般情况下,(106)中的第二个等式假设市场组合中所有股票的预测向量为zt。如果每个股票i有K个单独的预测因子z(i)t=[z(i)t1,…,z(i)tK],我们可以将它们叠加为zt=[z(1)t,…,z(N)t]t,这样zt的长度为KN。矩阵w的尺寸分别为N×KN。该矩阵中的每一行i在位置i,…,中只有Knon零元素,i+K(以便仅包括i的名字预测值)。这将导致矩阵w中的KN自由参数。如果需要,如果我们实施一些对称性,可以减少自由参数的数量,例如,强制要求给定扇区中所有名称的因子加载应具有相同的值。将等式(105)代入等式。(106)简化后,我们得到xt=uo φ o(1 + φ) oxt公司oφ+(1+φ)(rf+wzt)uφ(1+φ)- xt公司+ (1 + φ) o xt公司o ε(r)t(107)引入参数κt=uo φ o(1+φ),θ(zt)=φ+(1+φ)(rf+wzt)uφ(1+φ),σ(xt)√t=(1+φ)oxt(108)(此处t是一个时间步长),并替换ε(r)t→ εt,我们可以将公式(107)更具启发性地写成xt=κo xt公司o (θ(zt)- xt)t+σ(xt)√t型o εt(109)在该方程中,o 代表元素智能(Hadamard)产品。注意,该方程具有二次均值回归。它与具有线性均值回归的模型(如Ornstein-Uhlenbeck(OU)过程)截然不同。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:10:52
公式(109)是本文的第二个主要结果。方程(109)描述了均值回复动力学,其中信号驱动均值回复水平θ(zt)和均值回复速度κ与市场影响参数向量u成比例。很容易看出,在市场影响消失的限度内→ 0, φ → 0,公式(109)简化为公式(11)给出的对数正态回报模型,无作用项ut:xtxt=rf+wzt+εt(110),因此,在我们的框架中,在极限u内再现了常规对数正态回归动力学(带信号)→ 0, φ → 然而,当参数u、φ很小但不为零时,等式为。(110)和(109)描述了定性不同的动力学。而等式(110)是相对于缩放变换xt的缩放不变量→ αXT由于α是标度参数,非线性人回复动力学(109)不是标度不变的。当然,这是因为我们的市场代理汇集了市场上的所有代理。由于其各自的贸易影响导致动力学依赖于维度市场影响参数u,因此由此产生的市场动力学中的尺度不变性被打破(109)。因此,即使参数κ、φ很小但不为零,等式(109)也会产生一个潜在的高度复杂的非线性动力学,具有破标度不变性和随后的多周期自相关。这些具有动态生成的平均回复水平θ(zt)的非线性动力学由具有线性二次高斯(LQG)控制ut的简单线性动力学(11)产生。我们模型的一个特点是,它对均值回归的水平和速度都有非常明确的起源。从等式中可以看出。(109),电平θ(zt)由外部信号zt驱动,这是一种直观的感觉。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:10:56
另一方面,恢复到此类“目标”价格值的速度与市场影响参数向量u成正比,这也会直观地产生影响。值得注意的是,我们的模型展示了自组织系统的一些典型特征,如非线性均值回复效应、均值回复产生的长期相关性以及对外部信号zt的动态适应性。因此,我们通过代理人的主动自我游戏来构建自我学习,同时模仿市场上的所有交易者,这为自我组织和决策之间的等效性提供了一个具体的说明,如【57】所述。另一个重要的评论与问题的时间尺度有关。在我们的模型中有一些。首先,我们有一个外部信号向量zt。其中每一个都有自己的弛豫时间τzk,其中k=1,K是多个信号。为简单起见,假设只有一个标量信号zt具有特征弛豫时间τz~ 1/κz,其中κz是信号的平均反转速度。这可以与系统的特征弛豫时间τx进行比较~ 1/κ. 本文的设置隐含地表示τx≤ τz,即κ≥ κz,使市场接近非均衡稳定状态,并设法在每一步消化信号zt中的新信息,并完全调整市场价格(以信息成本gt的价格,见等式(35))。另一方面,如果κ≤ κz.在这种情况下,市场将处于非平衡瞬态,没有稳态。然而,当ZT在时间t相对于其先前价值发生大幅跃升时(例如,在重大金融、经济或政治事件之后),可能会出现差异,然后继续在新的水平上轻微波动。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:10:59
在这种情况下,将时间t调整为信号先前值的平均股价水平θ(zt)不是真正的动态最优,而只是一种可接受的状态。关于这种情况的进一步评论将在第节中给出。8、在一维(1D)情况下,平均回复水平θ(zt)=θ为常数,等式(109)为重定标变量st=xt/θ产生以下动力学:st=ust(1- st)+σ√tstεt,u≡ κθ由式(111)描述的t(111)动力学或其无噪声极限σ→ 0在物理和生物学中广泛遇到或使用。特别是极限σ→ 式(111)中的0描述了logistic映射动力学,例如在人口增长的Malthus-Verhulst模型中(见[55]),或在logistic映射混沌中的Feigenbaum分岔中,当3≤ u<4在等式(111)中,参见例如[47]。当σ>0时,等式(111)描述了具有乘法热噪声的logistic映射,这可能会产生高度复杂的动力学【4】。我们还可以考虑由公式(109)暗示的1D动力学的连续时间限制:dxt=κxt(θ- xt)dt+σxtdWt(112),其中wt是标准布朗运动。这一一维过程在经济学和金融学中被称为几何平均回归(GMR)过程。等效地,我们可以引入一个有标度的变量st=κxt,我们得到了=λtst- st公司dt+σstdWt,λt≡ κθt(113)是物理学文献中常用的一种形式【24】。如【24】所述,如果我们保持参数λt≡ κθt时间常数,即λt→ λ并查看系统在极限σ内的行为→ 0时,系统在λ=0时表现出二阶相变。当σ>0而θt=θ保持不变时,等式(113)有一个或两个对应于其平稳分布的两个极值的过渡点:s=0,s=κθ- νσ(114),其中ν=2和ν=1,分别用于SDE(113)的Ito和Stratonovich解释。只有当κθ>νσ时,第二个过渡点才存在。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:01
当满足该约束条件时,系统(113)会经历噪声诱导的过渡【24】。通过使用方程中变量的变化,我们可以得到方程(112)中描述的动力学的一些等效描述。特别是,如果我们定义st=1/xt,那么研究伊藤处方的随机微分方程读取st=κ - (κθ - σ) st公司dt公司- σstdWt(115),其中现在漂移在转换变量st=1/xt中变为线性。如果我们定义st=log xt/c,其中c>0是一个具有市场投资组合货币维度(如美元)的已执行数字,我们需要根据维度分析引入该维度,则可以获得另一种有用的形式。例如,我们可以选择c=hxi作为观察期内XT的时间平均值。使用Ito的处方和c的选择,st=log xt/hxi的SDE读数为SDST=κθ -σ2κ- hxiest公司dt+σdWt(116)注意,在这种形式下,噪声变为加法而不是乘法,如等式所示。(112)或(115)。另一方面,漂移成指数级。很容易看出,方程式(116)需要条件2κθ>σ,以便方程式(116)具有平稳分布。请注意,因为Xt是一家公司(或指数中的所有公司,具体取决于我们在此处使用1D设置的方式)的总市值,所以log Xt将由对数股价加上已发行股份总数得出。当后者为常数时,st=log xt/c等于股票的对数价格加上一个常数项。Dixit和Pindyck【13】使用了GMR模型(112),Ewald和Yang【17】进一步研究了该模型的性质,他们证明该过程是有界的、非负的,并且在2κθ>σ的约束下具有平稳分布。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:04
我们的模型(在多变量集合中)不是从现象学上引入这种均值回复动力学,而是从有界理性主体的底层动态优化问题中推导出来的。非平稳多元几何平均数回归过程(109)可以解释为均衡或准均衡统计过程(这是计量经济学和金融模型中通常假设的情况),也可以解释为非均衡Langevin过程【55】。在本节的其余部分中,我们假设前一种设置,而关于后一种情况的一些进一步评论将在第节中提供。8.2.6.2最大可能性IRL:市场组合在信号zt发生变化后,当市场在每个时期设法达到均衡分布(100)时,我们假设一个准均衡设置。在这种情况下,可以应用标准统计方法(如最大似然法)来估计模型。此模型下可观测数据的负对数似然函数readsLLM(Θ)=-logT公司-1Yt=0p(2π)N |∑x | e-(vt)T∑-1x(vt),vt≡xt+1- xtxt文本- κ o (θ(zt)- xt)t(117),其中xtnow代表观察到的股票市场价格,∑x=√t∑r。注意,因为模型是马尔可夫的,所以t=0的乘积,T- 1不一定意味着沿同一轨迹的跃迁的乘积,但可以看作是不对应于连续时间矩的单步跃迁的乘积。因此,可以从数据中估计的参数是平均回归速度参数κ、因子加载矩阵w和协方差矩阵∑x的向量。请注意,我们可以用转换变量st=log xt/hxi来定义,而不是用原始变量xt来定义可能性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:08
负对数似然,当用原始观测值XT重新表示时,将与等式(117)中的高斯形式相同,其中变量VT将定义为VT=logxt+1xt- κ oθ(zt)-σ2κ- xt公司t(118)7实验在本节中,我们用市场模型公式(109)描述了我们的实验。附录C中提供了校准模型参数的更多详细信息。为了显示详细结果,我们使用DJI指数,而不是作为市场投资组合更常用的标准普尔500指数。我们分析了2010年至2017年底DJI指数中所有公司市值的每日数据。我们使用了DJI的当前组成,其中包括2016年添加的苹果。我们通过除以整个时期指数的平均总市值来重新衡量所有数据点,对于我们的数据集,这大约等于1600亿美元。与[10]类似,我们的方法采用给定的信号ZTA,并假设它们是通过搜索超出我们框架范围的“alpha”获得的。校准模型参数必然取决于预测值zt的选择。我们的目标之一是说明这种对信号选择的依赖性。为此,我们使用两组不同的预测器zt进行两组实验来测试我们的模型。我们将这两个集合构建为市值(或同等价格)的预测因子,而不是收益的预测因子。第一组预测值包括每个股票的两个预测值:完美信号和arandom信号。完美(甲骨文)信号是作为第二天实现的回报(降级)获得的。该测试可以作为模型的健全性/实现测试。预计它将提供稳定的参数校准,几乎为零的波动性,以及完美信号和随机信号估计权重之间的差异数量级。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:11
结果是预期的,见附录C中的表1和表2,其中显示了单独年度运行的校准参数(我们不报告重量以节省空间)。第二组预测值由(重新调整的)市值的一对衰减指数移动平均值给出。这两个信号使用指数移动平均的参数γ=0.9和γ=0.96,分别对应于7天和15天的回望窗口。在这两组实验中,我们通过在权重w、wof两个预测因子的非负性约束下最小化负对数似然(117),并添加正则化项λ(w+w),来估计得到的模型参数-1). 而结果仅与λ范围内正则化参数的值弱相关~ 10-3.- 10-2,我们报告λ=10值的结果-2、协方差矩阵∑xis取对角线∑x=对角线(σi)。我们设置t=1,因此我们报告κ和σ的每日值,而不是年度值。指数移动平均信号的校准参数κ和σ如附录C中的表3和表4所示。可以预期,所得参数与第一组信号的参数有很大不同。校准后的参数不太稳定,这并不奇怪,因为移动平均数并不能很好地预测未来的价格。特别是,我们偶尔观察到κ的负值,这表明局部偏离预期值,而不是收敛到该值。在图中。1、2、3我们展示了2017年两个月内IBM、JPM和XOM股票的市值与固定平均水平。其他股票和其他时期的结果相似。请注意,试图通过简单地运行xton xtand将信号ZT作为此类回归中噪声项的一部分处理。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:14
由于ztisa随机过程本身,此类过程将违反i.i.d.对CH回归中噪声项的假设。图1:市值与估计平均水平:IBMFigure 2:市值与估计平均水平:JPM8讨论与未来方向8.1资产回报率的均值回归我们模型最有趣的含义之一是预测了资产回报率的非线性均值回归行为。虽然股市日内数据的均值回归是一个公认的事实,但其在长期回报中的存在是文献中一个长期讨论的话题。后者始于Poterba和Summers,他们认为股票回报率的均值反转是由“噪音交易者”的行为造成的,这些行为没有任何目标,即零智力[44]。[50]讨论了均值回归对长期最优资产管理的影响。图3:市值与估计平均水平:XOMIn我们的模型中,资产回报的均值回归有一个非常透明的来源。这源于交易员的总体市场影响,他们通过适应市场中不断变化的信号和变化,遵循均值方差马科维茨型优化策略,优化其投资组合。由此产生的股票价格动态是非线性均值回归类型(具有外部因素的多变量几何均值回归过程),即使我们在模型中为代理启动了一个简单的高斯策略π。我们模型中动态的非线性既是价格影响机制反馈回路的表现,也是反馈回路的结果。有趣的是,我们模型中动态生成的均值回归在系统中产生了时间衰减的自相关,即原始公式中没有的多周期效应。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:17
请注意,对于自组织系统而言,存在缓慢时间衰减的自相关和对外部信号的适应性是典型的,参见例如[57]。因此,我们的模型通过动态生成股票的均值回归水平,展示了自组织行为的一些特征。8.2第节讨论了非均衡行为和市场崩溃。6.1,我们的上述设置假设外部信号的变化很慢,因此市场有足够的时间来适应信号中的新信息。如果外部信号在时间上保持不变,系统最终将处于平稳平衡状态。如果信号ZT在时间t相对于其在时间t的右值表现出较大的跳跃,则可能出现不同的情况- 1、在这种情况下,系统可能会发现自己陷入亚稳态——一种以前的全局最优状态,在zt跳到新值后成为局部最小值。通过存在分离全局和局部极小值的势垒,可以确保亚稳定性,而不是这种状态的稳定性。噪声ε(x)t将激活从亚稳态到新的动态最佳稳态的过渡,参见例如[55]中关于如何在物理学中模拟此类过渡的内容。在金融环境中,这种亚稳态的衰变(通过热激活的扩散)可以描述市场崩溃。这种转变可以通过数值模拟或理论上使用[55]的方法进行研究。【54】中研究了由乘法噪声(如等式(111)中所示)引起的非平衡强化跃迁。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:20
特别是统计学,我们的模型最初没有包括任何“永久影响”效应,这可能不是MDP环境中的先验概念。文献[43]研究了具有热传导的系统驱动非平衡动力学的物理。8.3多智能体配方:市场定位还是击败市场策略?由于本文的目的是利用反向强化学习对驱动整个市场的有限理性“看不见的手”进行推理,因此我们使用了单代理设置。在我们的公式中,这个单代理通过自我游戏进行自我学习。正如我们在本文中所展示的,虽然这个公式可能看起来有点抽象,甚至是“神学的”,但它产生了非常具体的可观察和可计算的结果,例如预测资产回报的均值反转、隐含的合理性和风险规避参数,以及市场隐含的最优策略。另一方面,将此模型的设置扩展到多代理公式会很有趣。在线多智能体强化学习,其中两个或多个有界RationalAgent在有外部信号的噪音市场环境中实施类似Markowitz或可能更高级的投资策略,可以创建潜在丰富的市场击败策略。8.4市场的隐含合理性回顾:反向温度参数β通过最小化交易成本来控制动态复制市场投资组合的代理的合理性程度。我们展示了我们的框架所暗示的市场模型(109)的校准结果。在此设置中,原始模型参数嵌入在参数定义公式(109)中,参见公式。(108). 后一个参数根据市场数据进行校准。为了推断包括β在内的模型原始参数,可以使用第节中的IH-IFalgorithm。5.9.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:23
市场隐含理性参数β和风险规避λ的推断将在其他地方讨论。8.5作为信息感知行动系统的市场对RL代理的分析代表了我们在上面开发的市场的一致的有限理性部分,包括对行动的信息成本的分析。这种分析可以通过包括信息提取的信息成本来扩展[52、42、22、48]。该扩展的价值在于其关注外部信号zt。在我们的模型中,我们按照给定的方式对其进行调整,有效地将其提取的信息成本排除在模型的范围之外。按照【52、42、22、48】的思路进行分析,可以评估这些信号在整个感知-动作循环中的价值。请注意,传统上,信号的访问基于其预测未来的能力,例如其自身的未来。然而,这与这些信号的最终目标并不相同,即提高。【52、42、22】中的感知-行动周期分析规定了信号中的有用信息,而不是无用信息,这些信息应被丢弃,因为其使用相当于耗散能量(热量),而不是增加自由能。本文中开发的模型沿着金融市场感知-行动周期分析路线的扩展将在其他地方介绍。9总结正如索内特在[46]中所讨论的那样,经济模型不同于物理科学中的模型,因为经济主体预测未来并相应采取行动,从而影响当前。融资价值取决于市场参与者对未来的看法。这与物理学截然不同,在物理学中,质子的质量等量显然与公众对未来的看法无关。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:26
这些观察结果使许多研究人员认为,生物学和遗传学的观点对于财务建模非常有用【46】。正如我们在第节中讨论的。2、我们的模型与生物学模型有许多相似之处,例如[19]、[39]。我们的有限理性市场范围代理汇集了市场上所有在其交易决策中预测未来的交易员。agent的最佳行为是那些使其自由能最大化的行为,类似于[19]、[39]的模型。我们的模型提供了一种基于逆强化学习和变分EM算法的计算方案来推断模型的参数。在我们的模型中,实现“看不见的手”的市场范围代理是所有代理的总和,它为推断市场投资组合或单个投资者提供了统一的框架。此外,对于最有趣的市场投资组合动态推断案例,我们的模型提供了Black Litterman模型的多期扩展[8]。最后,我们的方法提出了一个非平稳的多元几何均值回归(GMR)过程(109)作为市场动力学的模型。附录A:局部二次展开的最优作用和最优G函数A。1动力学线性化在这里,我们开发了一个易于处理的计算方案,该方案基于线性化变量\'at,\'yt的条件,并将泰勒级数中的动力学和感兴趣的函数(G函数和动作策略πθ)在与这些值的小偏差处展开。在本节中,我们在计算条件变分自由能(71)时使用符号“at、”yt作为固定条件值,或等效为随机隐藏变量“at、”yt的实现。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:29
请注意,当这些值固定时,我们也有相关对的固定值(\'ut,\'xt)≡ (1吨-1’’at,1T’’yt),其中1=[1,0]和1-1= [1, -1] T.让我们回到等式(78),它表明,在控制和状态向量yt中,动力学是非线性的。定义(x,u)空间中线性化点的偏差δxt和δut:xt=\'xt+δxt,ut=\'ut+δut(A.1)。我们通过保持偏差δxt,δut中的线性项,将动力学方程(78)线性化。这将产生δxt+1=Ohm+ Ohmxδxt+Ohmuδut+Ohmzδzt+εto (xt+ut)(A.2),其中Ohm= (1+射频+诊断(带zt- M(ut))(‘xt+’ut)-(R)xt+1Ohmx=1+射频+诊断(W'zt- M(ut)(A.3)Ohmu=1+射频+诊断(W'zt- M(ut)- (\'xt+\'ut)o MOhmz=(\'xt+\'ut)o 其中(\'xt+\'ut)o M表示向量的第k个分量(\'xt+\'ut)与矩阵M的第k行的元素相乘,在最后一个关系中使用了类似的约定。还可以确定扩展空间的偏差(14)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:33
在这种情况下,我们以与等式(a.1)类似的方式围绕条件值“at,”“yt”展开:yt=”“yt+δyt,at=”“at+δat(a.4),以便线性化点位于等式中。(A.1)和(A.4)的关系如下:(\'ut,\'xt)≡ (1吨-1年1月1日)。根据增量δzt将公式(A.2)和公式(13)叠加在一起,我们可以写出δyt的线性化方程如下:δyt+1=ψ+ψyδyt+ψAδat+εyt(δyt,δat)(A.5),其中ψ=Ohm(一)- Φ) o(R)zt-(R)zt+1, ψy=Ohmx个Ohmz0 I- Φ, ψa=Ohm美国犹他州-1.(A.6)εyt(δyt,δat)=εto (xt+ut)εzt=εtoTyt+1T-1at公司εzt注意,矩阵ψ、ψy、ψ通过其对“ytand”at的依赖性而与时间相关。还要注意,式(A.5)表示Cδyt+1≡ Et,a[δyt+1]=ψ+ψyδyt+ψaδat∑y≡ Cov[δyt+1]=∑xx0∑z(A.7)∑xx=∑roh类Tyt+1T-1at公司Tyt+1T-1at公司t我们还可以用δyt和δat表示奖励公式(22):^Rt(yt,at)=δaTt^Raaδat+δyTt^Ryyδyt+δaTt^Rayδyt+δaTt^Ra+δyt^Ry+r(\'yt,\'at)(A.8)这里我们定义了^Raa=Raa,^Ryy=Ryy,^Ray=Ray,^Ra=Ra+2Raa'at+Ray'yt,^Ry=2Ryy\'yt+RTay\'at(A.9)r(\'yt,\'at)=\'aTtRaa\'at+\'yTtRyy\'ytray\'\'ytray\'\'yt+\'attrare将其作为奖励函数系数Raaetc的原始参数调用。根据原始模型参数、新的“帽子”系数^Raaetc确定。现在是原始模型参数和条件变量“yt,”at的函数。A、 2对于G函数的递归在本节中,我们考虑一个有限的地平线设置。在这种情况下,系数的时间依赖性将隐含在下面的方程式中,并将由额外的上脚本进行补充,例如:。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:37
F(t)yy,为清晰起见。对于具有计划地平线T的有限地平线设置,由于位置X由(10)确定,我们可以使用等式。(47)和(A.8)为了得到FπT(yT)=RT(\'yT+δyT,\'aT+δaT)(A.10),我们使用它来计算公式(87)中的Fyy,Fy,F(\'yT),根据奖励函数的系数(A.8):F(T)yy=Ryy=Ryy(A.11)F(T)y=RTayδaT+Ryy=RTay(\'aT+δaT)+2Ryy'yTF(\'yT“aT)=δaT^RaaδaT+δaTT^Ra+r(\'yT,\'aT),对于值T=T-1.0,我们使用等式。(A.5)和(A.7)计算下一周期F函数的条件期望,如下所示:Et,AFπt+1(yt+1)= F(\'yt+1,\'at+1)+cδyTt+1F(t+1)y+cδyTt+1F(t+1)yycδyt+1+TrhF(t+1)yy∑yi(A.12)最后一项可以使用公式(88)以更方便的形式表示:TrhF(t+1)yy∑yi=TrhTyt+1T-1at公司Tyt+1T-1at公司T(Fxxo ∑r)i+Tr[Fzz∑z]=Tyt+1T-1at公司T(Fxxo ∑r)Tyt+1T-1at公司+ Tr[Fzz∑z](A.13)在一些代数之后,我们将等式(A.12)以类似于等式(A.8)的形式放置:Et,AFπt+1(yt+1)= δaTtHaaδat+δyTtHyyδyt+δaTtHayδyt+δaTtHa+δyTtHy+bf(\'yt,\'at)(A.14),其中haa=ψTaFyyψA+1-1(Fxxo ∑r)1T-1Hyy=ψTyFyyψy+1(Fxxo ∑r)1THay=2ψTaFyyψy+2·1-1(Fxxo ∑r)1THa=ψTaFy+2ψTaFyψ+2·1-1(Fxxo ∑r)年初至今+1吨-1英寸at(A.15)Hy=ψTyFy+2ψTyFyψ+2·1(Fxxo ∑r)年初至今+1吨-1英寸atbf(\'yt,\'at)=F(\'yt+1,\'at+1)+ψTFy+ψTFyyψ+年初至今+1吨-1英寸atT(Fxxo ∑r)年初至今+1吨-1英寸at+ Tr【Fzz∑z】这些方程可用于有限地平线和有限地平线设置。对于前一种情况,所有参数都位于等式的右侧。(A.15)参考未来时间动量T+1,以便方程式。(A.15)作为下面要完成的反向递归方案的一部分。另一方面,对于有限层位的情况,它们可以用作自由能函数时间无关参数的更新方程(87)。接下来,我们取G-函数的Bellman方程Gπt(yt,at)=^Rt(yt,at)+γEt,aFπt+1(yt+1)(A.16)我们用等式代替。(83),(A.8)和(A.14)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:40
将所得方程左侧和右侧的δxt和δatin的类似幂前的系数相等,我们得到了方程(83)中定义G函数的矩阵系数的一组递归关系:Gaa=^Raa+Haa,Gyy=^Ryy+Hyy,Gay=^Ray+HayGa=^Ra+Ha,Gy=^Ry+Fy,G(\'yt,\'at)=r(\'yt,\'at)+bf(\'yt at,\'at)(a.17)在这些方程式中,左侧和右侧的系数指的是同一时间t,因此它们可以以相同的方式用于有限和无限水平情况。A、 3具有可观察回报的反向递归首先考虑一个适用于有限水平情况的完整反向递归方案,如果观察到回报,该方案将适用。下面,我们将修改此方案,用其估计值替换观察到的报酬。在这两种情况下,等式。(A.17)应通过反向递归来解决,从规划地平线T开始,以终端条件为条件。对于任意时间步长t<t,我们进行如下操作。首先,我们使用等式。(A.17)获取时间t时Q函数的参数。请注意,输入右侧OFEQ的参数。(A.17)在时间t已知,因为它们是使用时间步长t+1确定的值计算的。其次,我们使用公式(83)参数化的计算Q函数,根据公式(44)计算t时刻的F函数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:43
为此,我们将等式(29)中的先验π表示为增量δat,平均值δat=^at-\'at(回想一下,我们以\'at的值为条件):π(δat | yt)=p(2π)N |∑p | exp-δat-cδatT∑-1便士在-cδat(A.18)其中cδat=^at-\'at=^A+^A(\'yt+δyt)-在(A.19)中,使用公式(44)中的该公式以及we公式。(A.17)用积分代替离散和,我们得到fπt(yt)=βlog Zt=βlogXδatπ(\'at+δat | yt)eβGπt(yt,at)=β-Nalog(2π)-对数∑p |+βδyTtGyyδyt+βδyTtGy+βg(\'yt,\'at)-cδaTt∑-1pcδat+logZd ae-aT(∑)-1便士-2βGaa)a+aTΣ-1pcδat+βGayδyt+βGa(A.20)为了简化下面的公式,我们引入了辅助量bt=\'at-^A-^A'yt,∑p=∑-1便士- 2βGaa,Γβ=β我-Σ-1便士T▄∑-1便士Σ-1p,Υβ=∑-1p∑-1pEay=Υβ^A+βИ∑-1天=GTayΥβ-^ATΓβ(A.21)Ea=^ATΥβGa+βGTay ∑-1pGa,Lβ=2β对数∑p |+对数∑p注意limβ→0Γβ=0和limβ→0Υβ= 1. 使用等式。(A.21)对于高斯积分(A.20),我们可以用公式(87)中相同的形式表示:Fπt(yt)=δyTtFyyδyt+δyTtFy+F(\'yt,\'at)(A.22),其中系数现在计算如下:Fyy=Gyy+gtayay-^ATΓβ^AFy=Gy- Daybt+^ATΥβGa+βGTay ∑-1pGa(A.23)F(\'yt,\'at)=g(\'yt,\'at)-bTtΓβbt- GTaΥβbt+βGTa ∑-1pGa- Lβ记得,我们使用离散表示法只是为了方便,而实际上是在一个连续的actionformulation中工作。附录B:单一投资者IRL在本附录中,我们将单一投资者的可观察行为视为我们模型的特殊情况。回想一下,在这种情况下,我们建立了一个特定交易者的概率模型,假设我们可以访问交易者的交易记录。该模型由等式(100)的高斯政策给出,其中等式(98)中的平均值和方差是使用交易者的交易数据计算的,被解释为交易者在交易时观察到的行为。在我们的模型中,单一投资者推断的一个主要简化是,当观察到行为时,我们不需要对atin公式(62)进行内部积分。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:47
在这种情况下,我们需要的唯一集成是“at”上的外部集成。对于这种具有投资者特定行为和回报的环境,估计EQ参数。(A.8)等于EM算法,其长度为以下形式的一组nb轨迹的自由能(与公式(62)相比)Fs(w,θ)=NbXb=1TXt=0Zd'atq'A('at'y,w)logπθ(at'yt)pθ(yt+1,'yt,at)q'A('at'y,w),其中yt和at代表投资者组合中投资、信号和交易的观察值,存储为历史数据集(笑声),条件转移概率pθ(yt+1 | yt,at)定义在公式(76)中。算法???给出了单个投资者的完全变分EM IRL算法??。在步骤1中,使用公式(A.14)计算下一次F函数的期望值,在t=t时从固定终端条件开始的反向递归中。在步骤2中,我们使用公式(A.8)计算奖励。在步骤3中,使用Q执行Q函数的更新。(A.17)。在步骤4中,使用公式(A.23)计算时间t F函数。最后,在步骤5中,使用公式(100)重新计算作为θ函数的最优策略。通过计算小批次中所有跃迁的这些量,我们得到了小批次的自由能(102)。这用于使用学习率αθ更新θ的当前估计值。然后使用θ的新更新值来更新策略πθ的参数^A(k)、^A(k)和∑(k)po。然后,算法进行下一次迭代。数据:一系列状态和信号结果:奖励函数、最优策略和值函数设置学习率αθ、αω、批量Nb、初始参数θ(0)、ω(0)、^a(0)、^a(0)、σ(0)pSet k=1,同时不收敛,绘制一个新的小批量NbT步进轨迹(yt。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 03:11:51
,yt+T)E步:计算自由能Fs(ω,θ(k-1) )更新识别模型参数ω(k)=(1- αω)ω(k-1)+ αωωFs(ω,θ(k-1) M步:最大化Fs(ω(k),θ),作为θ的函数:对于t=t的每个跃迁(yt,yt+1)- 1.0 do1。计算时间t+1.2时F函数在时间t的期望值。计算报酬作为θ的函数。3、使用步骤1和2在时间t4更新Q函数。计算时间t.5时F函数的值。通过更新其均值和方差,将策略分布πθ(at | t,yt)重新计算为θ的函数。end使用公式(B.1)计算小批量的自由能Fs(ω(k),θ)更新参数向量θ(k)=(1- αθ)θ(k-1)+ αθθFs(ω(k),θ)使用新值θ(k)计算^A(k),^A(k),∑(k)pIncrement k=k+1算法2:IRL算法,学习单个投资者的最优策略、回报和价值函数。附录C:DJI投资组合的校准结果在我们报告第节所述两组信号的市场模型(109)的最大似然估计结果之前。(7). 我们在公式(109)中显示了校准的日平均逆转参数κ和方差∑=σ的结果。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群