信号、影响和最优交易的市场自学习：无形

2022-6-10 03:09:14

事实上，即使在最简单的单周期设置中，由于投资组合权重的马科维茨最优解是估计的股票均值和协方差的函数，因此它们实际上是随机变量。然而，投资组合优化的概率性质在Markowitz类型的单周期或多周期优化设置（如（24））中没有得到认可。Marshinski等人在一个时期内提出了概率投资组合优化公式。4.2参考政策我们假设我们得到了一个概率参考（或先验）政策π（在| yt），应该在尝试投资组合优化之前决定（28）。这种策略可以基于参数模型、过去的历史数据等进行选择。我们将使用简单的高斯参考策略π（at | yt）=p（2π）N |∑p | exp-（位于-^a（yt））T∑-1p（at-^a（yt））（29）如果^a（yt）可以是被选择为状态向量yt的线性函数的确定性策略：^a（yt）=^a+^Ayt（30）（29）中的参数的简单选择可以是仅用两个标量^a来指定它们，则^aas如下所示：^a=^a | a |和^a=^a | a |×| a |其中| a |是向量的大小，1A和1A×Aare，分别是由1构成的向量和矩阵。然后，标量^a和^a将在我们的设置中用作超参数。类似地，先验策略的协方差矩阵∑pF可以被视为具有常数相关性ρ和常数方差σp的简单矩阵。如下所示，最优策略与先验策略（29）具有相同的高斯形式，具有更新的参数^a、^a和∑p。这些更新将从定义先验策略（29）的初始值开始迭代计算。迭代k处的更新将分别由上下标表示，例如^A（k），^A（k）。此外，结果表明，即使我们在前面的（29）中设置了^a=^a（0）=0，也会出现由^a（k）值驱动的对ytat迭代k的线性依赖。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:17

选择与状态无关的先验π（at | yt）=π（at），虽然不是很关键，但会将模型中的自由参数数量减少两个，并简化以下一些分析，因此将继续假设。它还使得没有必要在前面的（29）中指定\'ytin的值（等效地，我们可以将其初始化为零）。定义先验（29）的最终超参数集仅包括三个值：^a、ρa、∑p.4.3 Bellman最优方程LetV？t（yt）=最大π（·| y）E“t-1Xt=tγt-t^Rt（yt，at）yt#（31）最优状态值函数V？t（xt）满足Bellman最优方程（见例[49]）V？t（yt）=maxat^Rt（yt，at）+γEt，at五、t+1（yt+1）（32）最优策略π？可以从V获得？如下所示：π？t（at | yt）=arg maxat^Rt（yt，at）+γEt，at五、t+1（yt+1）（33）强化学习（RL）的目标是基于数据样本求解Bellman最优方程。假设通过RL找到一个最优值函数，求解最优策略π？采用等式（33）中的另一个优化问题。4.4熵正则化Bellman最优性方程【11】之后，我们首先使用Fenchel类型表示法重新表述Bellman最优性方程：V？t（yt）=最大π（·| y）∈PXat∈Atπ（At | yt）^Rt（yt，at）+γEt，at五、t+1（yt+1）（34）此处P=π : π ≥ 0，1Tπ=1表示所有有效分布的集合。公式（34）等价于原始Bellman最优方程（31），因为对于任何x∈ Rn，我们有maxi∈{1，…，n}xi=最大π≥0,||π||≤1πTx.注意，虽然我们使用离散符号来简化表示，但通过用积分替换和，下面的所有公式都可以用连续符号等效表示。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:20

为简洁起见，我们将在[·]处将期望Eyt+1 | yt表示为Et，a[·]，如下所示。学习策略π（at | yt）相对于参考策略π（at | yt）的一步信息成本定义如下[18]：gπ（y，a）=logπ（at | yt）π（at | yt）（35）其对策略π的预期是π（·| yt）和π（·| yt）：Eπ[gπ（y，a）| yt]=KL[π| |π）（yt）≡Xatπ（at | yt）logπ（at | yt）π（at | yt）（36）轨迹的总贴现信息成本定义如下：Iπ（y）=TXt=tγt-tE[gπ（yt，at）| yt=y]（37）自由能函数Fπt（yt）定义为信息成本惩罚（37）增加的值函数（34）：Fπt（yt）=Vπt（yt）-βIπ（yt）=TXt=tγt-tE公司^Rt（yt，at）-βgπ（yt，at）（38）注意，式（38）中的β作为“反向温度”参数，控制奖励优化和接近参考政策之间的权衡，见下文。自由能fπt（yt）是熵正则化值函数，其中正则化的量可以进行调整，以更好地处理数据中的噪声。参考策略π为我们接下来描述的随机策略优化过程提供了“指导之手”。自由能函数Fπt（yt）的Bellman方程由（38）得到：Fπt（yt）=Ea | y^Rt（yt，at）-βgπ（yt，at）+γEt，aFπt+1（yt+1）（39）对于有限水平设置，等式（39）应补充终端条件fπT（yT）=^RT（yT，aT）在=-美国犹他州-1（40）（见等式（10））。公式（39）可被视为值函数Bellman最优方程的软概率松弛，KL信息成本惩罚（36）作为由逆温度β控制的正则化。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:24

除了这种正则化的值函数（自由能），我们接下来将引入熵正则化的Q函数。4.5 G函数：熵正则化Q函数类似于作用值函数，我们将状态作用自由能函数Gπ（x，a）定义为[18]Gπt（yt，at）=^Rt（yt，at）+γEFπt+1（yt+1）yt，at（41）=^Rt（yt，at）+γEt，a“TXt=t+1γt-t型-1.^Rt（yt，at）-βgπ（yt，at）#= Et，a“TXt=tγt-t型^Rt（yt，at）-βgπ（yt，at）#请注意，在物理学中，以及在自由能原理文献[19，39]中，自由能定义为与等式（38）相关的负号。这种差异纯粹是一个符号约定的问题，即Q的最大化。（38）可以重新表述为其负值的最小化。根据自由能函数的符号约定，我们遵循强化学习和信息论文献[40、52、42、30]。其中，在上一个等式中，我们使用了一个事实，即G函数中的第一个作用是固定的，因此当我们条件为at=a时，Gπ（yt，at）=0。如果我们现在将此表达式与等式（38）进行比较，我们得到了G函数与自由能Fπt（yt）之间的关系：Fπt（yt）=Xatπ（at | yt）Gπt（yt，at）-βlogπ（at | yt）π（at | yt）（42）该函数通过以下分布π（at | yt）最大化：π（at | yt）=Ztπ（at | yt）eβGπt（yt，at）（43）Zt=Xatπ（at | yt）eβGπt（yt，at）在最优解（43）计算的自由能（42）变为fπt（yt）=βlog Zt=βlogXatπ（at | yt）eβGπt（yt，at）（44），使用等式（44），最优行动策略（43）可写为：π（at | yt）=π（at | yt）eβ（Gπt（yt，at）-Fπt（yt））（45）式。（44），（45），以及此处为方便起见重复的等式（41）的第一种形式：Gπt（yt，at）=^Rt（yt，at）+γEt，aFπt+1（yt+1）yt，at（46）构成一个方程组，该方程组应通过t=t的反向递归自洽求解- 1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:27

，0，终端条件为sgπT（yT，aT）=^RT（yT，aT）（47）FπT（yT）=GπT（yT，aT）=^RT（yT，aT），方程的自洽格式。（44、45、46）[18]可用于观察到前方时的RL设置，以及未观察到前方时的IRL设置。在继续这些方法之前，我们想偏离等式（38）中熵正则化的另一种解释，这可能有助于澄清本文的方法。4.6熵正则化的对立解释公式（38）中熵正则化项的一种有用的替代解释可以建议将其表示为另一个函数的勒让德-芬切尔变换[41]：-βXatπ（at | yt）logπ（at | yt）π（at | yt）=minC（at，yt）Xat-π（at | yt）（1+C（at，yt））+π（at | yt）eβC（at，yt）（48）其中C（at，yt）是任意函数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:29

公式（48）可以通过直接最小化右侧相对于C（at，yt）的值来验证。利用KL项的这种表示，自由能最大化问题（42）可以表述为最大最小问题F？t（yt）=maxπminCXatπ（at | yt）[Gπt（yt，at）- C（at，yt）- 1] +π（at | yt）eβC（at，yt）（49）从（49）isC获得的假想对手的最优成本？（at，yt）=βlogπ（at | yt）π（at | yt）（50）与[41]类似，可以检查这是否为代理与其敌对环境之间的想象博弈产生了差异解决方案，其中最优G函数和最优敌对成本（50）的总和是常数：G？t（yt，at）+C？（at，yt）=const，这意味着原始代理与其对手的博弈处于纳什均衡。因此，在随机环境中，由单个代理进行投资组合优化，该代理代表整个市场的有限理性成分，正如我们使用熵正则化自由能的方法所做的那样，这在数学上相当于研究我们的代理人与敌对对手的双方博弈中的纳什均衡，其指数预算由等式（49）中的最后一项决定。4.7 G-learning和F-learning在RL设置中，当观察到奖励时，系统方程。（44，45，46）可以简化为一元非线性方程。将增加的自由能（44）代入式（41），我们得到πt（y，a）=^R（yt，at）+Et，aγβlogXat+1π（at+1 | yt+1）eβGπt+1（yt+1，at+1）（51）该方程为作用值Q函数提供了Bellman最优方程的软松弛，等式（41）中定义的G函数为熵正则化Q函数【18】。式（51）中的“逆温度”参数β决定了熵调节的强度。特别是，如果我们取β→ ∞, 我们恢复了Q-函数的原始Bellman最优方程。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:33

由于（51）中的最后一项近似于最大（·）函数，当β较大但有限时，等式（51）在文献中称为软Q学习。对于有限值β<∞, 在具有观察到的奖励的强化学习设置中，等式（51）可用于指定G-Learning【18】：一种将Q-Learning推广到需要基于熵的正则化的噪声环境中的差异策略时间差（TD）算法。参考文献[18]中的G-learning算法是在状态和动作空间都是有限的列表环境中指定的。在我们的例子中，我们处理高维的状态和动作空间，此外，我们不观察奖励，所以我们处于一个反向强化学习的环境中。另一种可能的方法是完全绕过G函数（即熵调节Q函数），并继续使用自由能F函数的Bellman最优方程（38）。在这种情况下，我们有一对Fπt（yt）和π（at | yt）的方程：Fπt（yt）=Ea | x^R（yt，at）-βgπ（yt，at）+γEt，aFπt+1（yt+1）π（at | yt）=Ztπ（at | yt）e^R（yt，at）+γEt，a[Fπt+1（yt+1）]（52）这里，第一个方程是F函数的Bellman方程（39），第二个方程是通过将等式（46）替换为等式（43）得到的。还请注意，归一化康斯坦丁公式（52）通常不同于公式（43）中的归一化常数。等式（52）表明，一步奖励^R（yt，at）本身不会形成一步行动概率π（at | yt）的替代规范。相反，求和R（yt，at）+γEt，aFπt+1（yt+1）是必需的[42]。然而，在一种特殊情况下，当动力学是线性的，而奖励^R（yt，at）是二次的，则术语Et，aFπt+1（yt+1）与时间t奖励^R（yt，at）具有相同的参数形式，因此添加该项相当于一步奖励函数参数的“重整化”（见下文）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:36

因此，如果IRL的唯一目标是通过建模奖励函数从数据中学习策略，那么模型可以直接从数据中学习这些“重整化”参数。在这种情况下，无需将这些值拆分为当前奖励和预期未来奖励部分，从而将IRL中的最优策略问题减少到标准的最大似然估计。例如，【28】在不同的背景下考虑了这种方法。5最优交易的逆强化学习在本节中，我们将同时分析我们模型的两种设置：（i）单个投资者IRL，和（ii）市场投资组合IRL。这两种情况之间的主要区别在于，在第一种情况下，代理人的行为是可以观察到的，而在第二种情况下，代理人的行为不是可以直接观察到的，只能观察到其对市场价格的影响。第二个差异与模型中的规划范围有关。对于单个投资案例，我们有一个有限期MDP问题，其中任务在给定的初始时间开始，并在特定的时间T+T结束T步。相反，对于市场投资组合IRL，我们没有明确的开始时间和结束时间T的概念。唯一没有争议的类时间参数是当前时间t。合理的选择是通过设置t=t（这意味着我们现在开始我们的任务）来消除时间齐次问题中所谓的时间非平稳性，并将t设置为完整性。后者意味着将问题转化为有限水平IRL的问题。另一方面，正如我们将在下面展示的，这两种情况的计算算法有许多共同或相似的元素。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:39

特别是，有限的时间范围设置可以通过固定的时间范围进行数值近似，而未观察到的行为可以被视为隐藏变量，现已成为模型推断的一部分。这意味着，在一定程度上，市场最优投资组合和单一投资者投资组合的推断应该涉及许多共同因素。在我们的环境中，由于我们的有限理性市场代理是所有个人投资者的总和，这两个公式中的状态变量以一种非常明确的方式联系在一起：在市场投资组合的情况下，单个投资者对agiven股票的投资金额变成了该股票的总市值。因此，在我们的modelby构造中，我们内置了将个人投资者的全部投资组合和行动相加为单个市场化投资组合和有限理性市场主体的单个行动的能力。这意味着市场投资组合推断的情况可以被视为单一投资者情况的一般化。在本节中，我们将提出一个从状态观测数据推断最优投资策略的一般解决方案，这对aIt的两种情况都适用，也为通过将市场最优投资组合概率分解（“细化”）为各主要投资者的子投资组合，以自上而下的方式构建流动“市场推动者”模型开辟了一条道路。我们将此留作将来的研究。单一投资者和市场投资组合。该解决方案基于变分EM算法，可用于确定原始模型参数。如第节所示。6、对于市场投资组合的特殊情况，除了这种一般方法外，我们的模型还可以用另一种更简单的方法进行估计，将其重新表述为股票回报的计量经济模型。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:42

我们在本节中的介绍尽可能同时涵盖单一投资者和市场投资组合的两种情况，如果不可能，则单独进行分析。5.1可能性函数首先考虑可观察行动的情况。这种情况下的数据包括一组D轨迹ζi，其中i=1。状态-动作对的D（yt，at），其中轨迹i从某个时间t0iandruns开始直到时间Ti。我们考虑单个轨迹ζ，其中我们设置开始时间t=0和结束时间t。由于单个轨迹被认为是独立的，因此它们将加入问题的最终可能性中。我们假设动力学是成对的马尔可夫（yt，at）。弹道的完整数据概率ζisPc（y，a |Θ）=pθ（y）T-1Yt=0πθ（at | yt）pθ（yt+1 | yt，at）（53）这里p（y）是在第i个演示开始时yt的边际概率，pθ（yt+1 | ytat）是在前一个状态yt上的一个新状态yt+1条件的概率，这一步附加的动作。注意，第一个动作是固定的，因此我们得到πθ（a | y）=1。还要注意的是，在我们基于模型的IRL设置中，行动策略πθ（·| yt）和转移概率θ（yt+1 | ytat）都依赖于同一组参数。联合分布pθ（yt+1，at | yt）=πθ（at | yt）pθ（yt+1 | ytat）是我们框架中的生成模型。对于一个完整的数据（即当yT和ata都可观测时），我们得到以下log likelihoodLc（θ）=log Pc（y，a |Θ）=log pθ（y）+Xt∈ζ（logπθ（at | yt）+log pθ（yt+1 | yt，at））（54），其中ytand代表数据中观察到的值。给定政策和转移概率函数的一些简单参数形式，最大化这种完整的数据日志可能性非常简单。这种具有完整数据的推理问题对应于我们模型中的单一投资者IRL。市场投资组合的IRL出现了不同的情况。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:45

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:49

下限（57）可以解释为自由能，其“能量函数”log pθ（yt+1，at | yt）[38]。经典EM算法【12】相当于自由能（57）相对于分布q和模型参数θ：E步骤：q（k+1）=argmaxqF（q，θ（k））M步骤：θ（k+1）=argmaxθF（q（k+1），θ）（58）注意，通过注意式（57）中自由能F（q，θ）的最后形式表明，当q（at | y）=Cpθ（yt+1，at | yt）时，其作为q函数的最大值达到，其中C是归一化常数，应等于1/pθ（yt+1 | yt），以获得q（at | y）的正确归一化。这一起产生了E阶跃的以下分析结果：q（k+1）=pθyt+1，在| yt，θ（k-1)pθyt+1 | yt，θ（k-1)= pθ在| yt+1，yt，θ（k）（59）因此，第k步的q就是用上一次迭代的模型参数计算的ATT的后验分布。公式（58）中的M步等于参数θ中“能量”对数pθ（yt+1，at | yt）期望值的最大化。这个过程保证了单调收敛到自由能的局部最大值（57）[12，38]。5.3变分EMA由于经典EM算法的M步在我们的环境中很难实现，我们使用变分EM方法，其中，我们使用基于模型的规格QW（·），由一组“识别模型”参数ω参数化，而不是近似分布Q的非参数规格，从而获得E步的非参数最优解。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:52

然后，E步相当于参数ω的最大化，而M步是按照分布q（k+1）（·）确定的期望值执行的。因此，变分EM算法迭代更新识别模型参数ω和生成模型参数θ：E步骤：ω（k+1）=argmaxωF（ω，θ（k））M步骤：θ（k+1）=argmaxθF（ω（k+1），θ）（60），而EM算法的变分版本不保证每一步的alog可能性单调增加，它保证了在每次迭代时，对数似然不会减少（即它会增加或保持不变）。为了产生一个实用的计算方案，我们将以下变量分布qω（·）的规格视为四个隐藏变量在，’at，’yt，’yt+1的联合分布：qω（at | y）=Zd‘atd‘ytd‘yt+1qω（at，’at，’yt yt，’yt yt+1 | y）=Zd‘atd‘yq‘a‘，at，’y，ω在| at，ω）（61）处，其中y=（yt，yt+1）和'y=（'yt，'yt+1）。隐藏变量\'at，\'y将用于下面的动力学线性化，类似于[5]中的鲁棒可控嵌入（RCE）方法。利用等式（57）中的分布，我们获得了观测数据对数似然的以下变分EM界：F（ω，θ）=Zd'atd'y q'a'y（'at，'y'y，ω）Zdatqa（at'at，ω）logpθ（yt+1，at'yt）qω（at，'at，'y'y）≡Zd'atd'y q'a'y（'at，'y'y，ω）Fa（ω，θ，'at，'y）（62），其中Fa（ω，θ，'at，'y）是条件变分自由能：Fa（ω，θ，'at，'y）=Zdatqa（at'at，ω）logπθ（at'yt，'at，'yt）pθ（yt+1'yt，at，at，\'y）qω（at，\'at，\'y | y）（63），其中对数中的qω（at | y）根据等式（61）计算。等式。（62）和（63）因此给出了推断市场投资组合的数据可能性的不同下限，而对于个人投资者的情况，我们必须忽略公式（62）上的内部积分。注意，在等式（63）中，我们明确地将隐藏变量引入了生成模型pθ（yt+1，at | yt）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:55

如下所示，引入这些隐藏变量是为了使公式（63）中涉及的两个计算变得容易处理：计算（63）中的积分，以及计算该积分所依赖的策略πθ。这两项任务显然是连续的。我们将首先使用隐藏变量的条件来找到行动策略πθ的可处理表示，然后使用此表示来计算at上的积分。公式（63）表明，如果分布qa（at |'at，ω）在at='at附近出现尖峰，则可以使用阿德尔点（拉普拉斯）近似计算条件自由能Fa（ω，θ，'at，'y）。然后，可以使用另一个鞍点近似值计算等式（62）中关于条件隐藏变量“at，”“yt，”“yt+1”的剩余积分。在我们指定了变分策略分布qq和生成模型pθ之后，下面将详细介绍该方案。5.4变分分布qwor变分模型qω定义如下：qω（at，\'at，\'y | y）=q'a'y（\'at，\'y | y）qa（at'at，ω）=qφ（\'yt+1'yt+1）qД（\'yt'yt，\'yt+1）q'a（\'at'yt，ω）qa（at'at，ω）（64）这里qφ和qД分别是变分前向和后向编码器【5】。正如我们假设的时间同质性，编码器qφ（\'yt+1 | yt+1）的函数形式应该与ofqφ（\'yt | yt）相同。我们对变量政策qw的四个边缘使用高斯规范：q'a（'at'yt，ω）=N（'at'ua（yt），∑a），qφ（'yt'yt）=N（'yt'φ（yt），∑φ）qД（'yt'yt，'yt+1）=N（'yt+1'（yt，'yt+1），∑Д）（65）qa（at |'at，ω）=N（at |'at，Δ），具有常数协方差矩阵和线性平均值函数：ua（yt）=ua+ayt|φ（yt+1）=uφ+λφyt+1uν（yt，'yt+1）=uИ+λ（1）Уyt+λ（2）Уyt+1（66）这些简单线性协方差的替代方法可以是非线性平均值，并通过参考文献[5]中的神经网络实现。，则，或者使用一些其他通用函数近似，例如高斯混合或树。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:09:59

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:10:01

更改积分变量→ δat=at-\'at，我们将该项写成如下：Ea（ω，θ，\'at）=Zdδatqa（\'at+δat | | | at，ω）log[πθ（\'at+δat | yt）pθ（yt+1 | yt，\'at+δat）]（75）由于分布qa（at | | | at，ω）在at=\'at附近急剧达到峰值（只要∑δ足够小），我们可以使用鞍点近似计算该积分。为此，我们需要计算πθ（\'at+δat | yt）和pθ（yt+1 | yt，\'at+δat）的小值δat。让我们从计算pθ开始（yt+1 | yt，\'at+δat）。状态向量yt的全转移概率=[xt，zt]由以下表达式给出：pθ（yt+1 | yt，\'at+δat）=pz（zt+1 | zt）pθ（xt+1 | xt，\'at+δat）（76），其中pz（zt+1 | zt）=q（2π）K |∑z | e-（zt+1-（一）-Φ)ozt）T∑-1z（zt+1-（一）-Φ)ozt）（77）（见等式（13）），其中K是预测因子zt向量中的分量数。该项与δAt无关，并作为等式（75）中的常数项。（76）中的第二个条件转移概率pθ（xt+1 | xt，\'at+δat）可计算如下。首先，我们利用方程得到投资组合向量的动力学。（7）和（11）：xt+1=xt+ut+rto （xt+ut）=xt+ut+rf1+Wzt- MTut+εto （xt+ut）（78）=（1+rf）（xt+ut）+诊断（Wzt- Mut）（xt+ut）+ε（xt，ut）在这里，我们假设市场影响矩阵M与元素ui成对角线，setM=diag（ui），ε（xt，ut）≡ εto （xt+ut）（79）式（78）表明，由于市场影响，控制ut中的动态是非线性的~ M、将操作UTA展开如下：ut=[1，-1] at=[1，-1] \'\'在+[1，-1] δat≡\'ut+δut，因此δut=[1，-1] δat=1T-1δ，其中1-1.≡ [1, -1] T，xtreadspθ（xt+1 | xt，\'at+δat）=q（2π）N |∑r | e的一步条件转移概率-Tt∑-1r级t（80）式中t型≡xt+1xt+(R)ut+δut- 1.- 射频- Wzt+MT（\'ut+δut）=d（\'at）+d（\'at）δat+d（\'at）（δat）+。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:10:05

（81）遗传（(R)at）=xt+1xt+1T-1英寸at- 1.- 射频- Wzt+MTT-1“atd（”at）=-diagxt+1xt+1T-1英寸at!T-1+MTT-1（82）d（(R)at）=diagxt+1xt+1T-1英寸at![1，1]这些表达式与“at”呈非线性关系，在鞍点近似值范围内，这些表达式中的值将根据公式（65）中定义的分布q被其平均值所取代。另一方面，这些表达式的其他参数，即xtandxt+1（和zt）是在变分似然（62）和全似然（54）中直接观察到的值。接下来，对于δat的小值，我们必须计算作用策略πθ（\'at+δat | yt）。为此，我们将状态向量写为yt=’yt+δyt（该分解的含义将在下文中解释），并引入G函数的局部二次参数化：Gπt（yt，’at+δat）=δaTtGaaδat+δyTtGyyδyt+δaTtGayδyt+δaTtGa+δyTtGy+G（’yt，’at）（83），因为等式（45）给出了最佳行动策略，我们有（现在yt=\'yt+δyt）π（\'at+δat | yt）=π（\'at+δat | yt）eβ（Gπt（yt，\'at+δat）-Fπt（yt））（84）将这些表达式代入式（75）中，并在对数pθ（xt+1 | xt，\'at+δat）项中仅保留δatin中的二次项（见式（81）），我们得到了a（ω，θ，\'at）=E（0）a（ω，θ）+E（1）a（ω，θ，\'at）（85），其中E（0）a（ω，θ）=-“”在-^A-^AytT∑-1便士“”在-^A-^Ayt-dT∑-1rd+对数pz（zt+1 | zt）-Tr公司∑δdT∑-第一- Tr公司diag（δ∑）dT∑-第一-Tr公司ΣδΣ-1便士-对数∑p |-对数∑r |-Nlog（2π）E（1）a（ω，θ，’at）=βg（\'yt，\'at）- Fπt（yt）+δyTtGyyδyt+δyTtGy+Tr[δGaa]（86）其中，我们省略了d，dand，don'at的依赖关系，见公式（82），ytinE（0）a（ω，θ）表示时间t的观测状态向量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:10:08

第二个表达式E（1）a（ω，θ，’at）inEq。（85）因此收集了所有依赖于G函数和F函数的项，而独立于这些函数的项组合在E（0）a（ω，θ）中。总结到目前为止，Eqs。（85）、（86）、（72）共同规定了条件变分自由能（71），前提是模型参数以及G函数（83）和F函数已知。一旦计算了条件自由能Ea（ω，θ，’at），就可以使用‘at’上积分的另一个鞍点近似来计算无条件变量自由能（62）。接下来将介绍该计算，而以下各节将描述通过线性化在‘‘at’、‘y.5.6计算变分自由能FRecall来确定策略πθ和G函数（83）以及相应的F函数的方法。在等式（83）中，我们使用了状态向量yt=’yt+δyt的表示。这将可观测向量yt分解为两个不可观测量yt和δyt之和。当我们对线性化变量\'yt进行条件处理时，我们可以写出δyt=yt-当对外部隐藏变量进行积分时，可观测的yti分解为两个不可观测的yt，δyti的优点是，现在我们可以假设F函数在随机隐藏条件（线性化）值at，y附近是局部二次的，并将其参数化如下：Fπt（yt）=δyTtFyyδyt+δyTtFy+F（\'yt，\'at）（87）=FxxFxzFzxFzz, 财政年度=FxFz, （88）在有限水平设置中，参数Fyy、Fy、Fbecome与时间相关，而在有限水平设置中，参数Fyy、Fy、Fbecome与时间无关。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-10 03:10:11

如下所示，（87）中的最后一个项（\'yt，\'at）是（\'yt，\'at）的二次函数。使用（86）中的公式（87），我们得到了无条件自由能（62）的以下分解：F（ω，θ）=Zd'atd'y q'a'y（'at，'y'y，ω）Ha+E（0）a（ω，θ）+E（1）a（ω，θ，at）≡ H+F（0）（ω，θ）+F（1）（ω，θ）（89）这里可以解析计算第一项：H=-Zd'ytd'yt+1qh（'yt，'yt+1'y）log qh（'yt，'yt+1'y）+H[q'a（'at'yt）]=logn（2πe）2N'o+logn（2πe）Na'a'o（90），其中联合协方差矩阵∑jis定义在等式（70）中。式（89）中的第二项F（0）（ω，θ）涉及E（0）a（ω，θ）的积分，该积分收集了与G函数和F函数无关的所有项。使用鞍点近似值，我们用其平均值h？ati=ua（yt）替换？atin系数（82）。因此，在这种近似下，由于第一项，E（0）a（ω，θ）的依赖性仍然是二次的。将该表达式与等式（65）给出的高斯分布qa相结合，我们得到f（0）（ω，θ）=Zd'atd'y q'a'y（'at，'y'y，ω）E（0）a（ω，θ）=Zd'atq'a（'at'yt，ω）E（0）a（ω，θ）=-ua-^A+∧a-^A年初至今T∑-1便士ua-^A+∧a-^A年初至今-dT∑-1rd+对数pz（zt+1 | zt）-Tr公司∑δdT∑-第一- Tr公司diag（δ∑）dT∑-第一-Tr公司ΣδΣ-1便士-Tr公司∑a∑-1便士-对数∑p |-对数∑r |-Nlog（2π）（91）最后，我们考虑等式（89）中的第三项，它依赖于G函数（83）和f函数（87）。使用这些表达式，我们可以写出此项的被积函数E（1）Ao，定义在等式的第二部分。（86）如下（1）a（ω，θ，’at）=βg（\'yt，\'at）- Fπt（yt）+δyTtGyyδyt+δyTtGy+Tr[δGaa](92)= βδyTt（Gyy- Fyy）δyt+δyTt（Gy- Fy）+g（\'yt，\'at）- F（\'yt，\'at）+Tr[δGaa]附录A昆虫中导出了G函数和F函数参数之间的关系。A、 3，见等式。（A.23）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-10 03:10:15

使用以下辅助量（如下式（A.21）中所述，为方便起见，在此重复）bt=(R)at-^A-^A'yt，∑p=∑-1便士- 2βGaa，Γβ=β我-Σ-1便士T▄∑-1便士Σ-1p，Υβ=∑-1p∑-1pEay=Υβ^A+βИ∑-1天=GTayΥβ-^ATΓβEa=^ATΥβGa+βGTay∑-1pGa，Lβ=2β对数∑p |+对数∑p我们得到fyy=Gyy+gTayey-^ATΓβ^AFy=Gy- Daybt+^ATΥβGa+βGTay ∑-1pGa（93）F（\'yt，\'at）=g（\'yt，\'at）-bTtΓβbt- GTaΥβbt+βGTa ∑-1pGa- Lβ这些关系表明，自由能（87）中的不同项对隐藏变量“At”和“yt”的依赖性如下。首先，二次项δyTtFyyδytis'yt中的二次项（如δyt=yt-\'\'yt），且独立于\'\'at。第二项δyTtFyis在“yt”中为二次项，在“at”中为线性项。自由项f（\'yt，\'at）由等式（92）中抵消的项g（\'xt，\'at）和等式（92）中最后一个表示的二次型的项g（\'xt，\'at）之和给出。(93).因此，该表达式的积分可以用Gaussianhidden变量分布的闭合形式计算（65）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:10:18

使用等式。（92）和（93），在变分分布q'a'y（'at，'y'y）下，我们得到等式（87）中三项的预期E'at，'y[·]的以下结果：E（1）yy（ω，θ，'at）≡ E在，yβδyTt（Gyy- Fyy）δyt= βTrΣ-1小时^ATΓβ^A- GTayEay公司+β（yt- uh（y））T^ATΓβ^A- GTayEay公司（年初至今）- uh（y））E（1）y（ω，θ，’at）≡ E在，yβδyTt（Gy- 财政年度）= βTrΣ-1hDay^A- βuh（y）^ATDTay+β（yt- uh（y））TEa+天ua（yt）-^A（94）E（1）（ω，θ，’at）≡ E’at，’y[β（g（’yt，’at）- F（\'yt，\'at）+Tr[δGaa]]=βTrh∑aΓβ+σh^atΓβ^Ai+βatΓβ^a- β^ATΓβua（yt）- βua（yt）-^ATΓβ^Auh（y）+βGTaΥβua（yt）-^A-^Auh（y）-βGTa ∑-1pGa+βTr[δGaa]+βLβ，其中线性高斯平均函数ua（yt）和uh（y）在等式中定义。（66）和（69）。因此，变分自由能（89）的最终闭合形式结果由sumof方程（90）、（91）和（94）给出：F（ω，θ，πθ）=H+F（0）（ω，θ）+F（1）（ω，θ，πθ）（95）。在这里，我们将策略πθ作为F（ω，θ，πθ）的参数，以强调后者依赖于三组输入：变分参数ω，生成模型参数Θ，以及最优策略πθ。变分自由能（95）通过其对参数Gaa，Gayetc的依赖性取决于策略πθ。确定最优G函数（即最优熵正则化Q函数）的局部二次表示（83）。变分EM算法相当于公式（95）的迭代最大化。由于变分自由能（95）的整体表达式是解析表达式，因此该算法的E步和M步在计算上都很轻松。在E步中，我们将其最大化为变量参数ω，同时保持参数Θ和前一次迭代的G函数。在M-step中，我们根据生成模型参数Θ和策略πθ将其最大化。M步的输出是参数Θ的更新值和G函数（83）参数的更新值。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:10:21

现在，我们将更详细地考虑M-step。5.7 M-step：策略优化在M-step中，G-function的更新使用eq完成。（A.9），（A.15），（A.17）在附录A中推导。这些方程提供了一般自洽方程组（44），（45），（46）在我们的G函数局部二次展开设置中的实际实现。在这种情况下，这些方程中的所有积分都是以分析的方式进行的，因此在我们的高维连续状态作用设置中提供了这种方法的一个可操作版本。请注意，G-learning的原始版本仅在[18]中在低维离散环境中进行了探讨。如附录A中所述，等式。（A.9）、（A.15）、（A.17）可用于单个投资者或市场投资组合。在前一种情况下，更新在时间上向后执行，从F函数或/和G函数的终端时间T和特定终端条件开始。在市场投资组合的后一种情况下，这些方程可用于时间平稳设置中，作为G函数时间无关系数的更新规则。当以这种方式计算时间步长t的Q函数系数时，δatis的最佳作用分布是使用等式（84）计算的，为了方便起见，我们在这里重复该等式：πθ（\'at+δat | yt）=π（\'at+δat | yt）eβ（Gπt（yt，\'at+δat）-Fπt（yt））（96）当通过调节固定时，我们将分布视为δat的高斯分布，平均δat=^a+^Ayt-“”在。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:10:24

由于参考分布π是高斯分布，Q函数是二次函数，最优行动策略π再次是高斯分布，具有新的均值和协方差：πθ（δat | yt）=π（δat | yt）eβ（Gπt（yt，at）-Fπt（yt））=Nδat | cδat，∑p（97）其中，N（·）是具有以下平均值和协方差矩阵的多元高斯分布：cδat=∑pΣ-1pcδat+βGayδyt+βGa∑p=Σ-1便士- 2β砷化镓-1（98）这些关系可被视为当前迭代平均值cδat（见等式（A.19））的贝叶斯更新，以及相对于“先前”参考政策（A.18）值的最优行动政策方差∑pof。注意，在极限β→ 0，等式（98）不产生更新，cδat=cδat。这是意料之中的，因为在这个“高温”极限中，代理只会最大化KL熵的负性，而不会最大化奖励。它们还可以表示为根据原始策略变量对行动策略（29）的更新。Ascδat=^A+^Ayt-在，平均值CδA的更新（98）意味着参数A和A的更新。将此表达式代入等式（98），并比较此等式中的截距和线性项，可更新策略（29）的平均值：∑（k+1）p=∑（k）p-1.- 2βG（k）aa-1^A（k+1）=at+∑（k+1）p∑（k）p-1.^A（k）-“”在+ β∑（k+1）pG（k）a- G（k）年^A（k+1）=∑（k+1）p∑（k）p-1^A（k）+βG（k）ay（99）我们使用参数值Gaaetc。对应于算法的当前迭代。这些更新再次退化并成为高温极限β中的恒等式→ 另一方面，在相反的极限β中→ ∞ 我们获得了有限且非琐碎的更新。请注意，在单一投资者的有限期限设置中，参数Gaa、Gayetc。与时间相关，因此系数^A也将与时间相关。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:10:27

另一方面，对于市场投资组合推断，G函数的参数与时间无关，因此参数^a和^a也与时间无关。步骤k+1的更新策略现在采用π（k+1）（at | yt）=N的形式在| A（k+1）+^A（k+1）yt时，∑（k+1）p（100）^Aon'at'yt的明显依赖性是我们对等式（62）中的外部积分值进行调节的结果。虽然^ama的更新可能取决于等式（99）中的调节/线性化变量\'at，\'ytas，但使用此方法获得的最终固定点值^ao是一个与\'at，\'yt独立的常数参数。方程（99）和（100）代表了我们的主要结果之一。关键是最后一个等式。（99）表明，即使上一次迭代的值为零，也可以获得非零系数^a（k+1）。当k=0时，这意味着即使我们从PolicyPrevior（29）中的^A（0）开始，该系数（导致最优策略对状态yt的依赖）也变为非零。此外，这意味着在收敛时，更新（100）会产生一些固定的策略参数值^A，^Aof。因此，我们的模型预测，最优投资政策是高斯型的，其平均值在状态变量yt=[xt，zt]中是线性的，就像Todorov和Li的迭代线性二次高斯（iLQG）调节器一样[53]。当XTI与市场投资组合确定且代理人是我们的有限理性市场代理人时，等式（100）（与此类固定点值^a、^a一起使用）定义了最佳的“市场隐含”行动政策。这在Black-Litterman模型[8]的单周期设置和Bertsimas等人的反向投资组合优化方法中提供了市场最优静态投资组合的概率和多周期扩展。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:10:30

[7].另一方面，如上所述，如果我们能够访问某个投资者的自营交易数据，那么同样的框架也可以应用于该个人投资者。在这种情况下，行动将是该投资者的行动。如果这些动作是可观察的，则可在最大似然估计中直接使用等式（100）。我们在附录B中讨论了这一点，作为我们模型的一个特殊情况，而在这里，我们继续讨论（市场代理人或个人投资者的）行为不可观察的情况。虽然本文的主要重点是对市场范围内有界理性主体的推理，但该算法也可用于交易影响市场但无法直接观察到的单个大型投资者。当市场波动与单个大额交易的影响具有更强的因果关系时，这种设置可能会对日内交易产生兴趣。在这种情况下，变量Xt对应于不同股票头寸的美元价值，它们是市场投资组合中所有公司的总资本化，用于推断市场。5.8市场投资组合的内部收益率与单一投资者的内部收益率在本文中，我们对单一投资者和市场投资组合的数学公式几乎是一致的。在这两种情况下，最优投资政策由公式（100）给出，在这两种情况下，可以使用公式（95）给出的单步变分自由能的变分EM算法进行推理。现在我们来讨论这两种情况之间的区别。第一个区别在于计算进入这些方程的参数的计算程序。对于单个投资者的情况，如果未观察到行动，则等式中的系数。（100）和（（95）与时间相关，应通过从最终日期t=t开始的向后递归计算，如附录a所述。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-10 03:10:34

对于市场投资组合的情况，问题是静态的，因为在市场中没有单一的唯一地平线T用于规划。这意味着系数现在与时间无关。方程的自洽集。（44），（45），（46）对于静态情况，readsFπ（yt）=βlogXatπ（at | yt）eβGπ（yt，at）Gπ（yt，at）=R（yt，at）+γEt，a[Fπ（yt+1）| yt，at]（101）π（at | yt）=π（at | yt）eβ（Gπ（yt，at）-Fπ（yt））具有未观察到的行为的单个投资者案例可能不如具有可观察性的场景常见，但后者是一个简单的案例，因为它根本不需要隐藏变量，请参见附录B。从计算角度来看，该公式相当于解出自洽系统方程。（101）作为时间平稳G函数、F函数和策略πθ的定点方程。在这种情况下，方程（A.23）成为定点矩阵方程，因为现在它们将F函数（A.22）的矩阵系数与其自身相关联，而不是与其下一个周期值相关联，就像在有限的层位规格中一样。在平稳设置中，这些方程可以作为F函数参数的更新规则，方法是从右到左读取，与在时间依赖情况下的每个步骤中使用的方法相同。市场投资组合IRL与单一投资者案例的第二个主要区别是，虽然在这种情况下可以直接观察到状态，但行动不是。它们可能会在模型的多代理版本中被观察到，其中的目标是对击败市场的策略进行建模，而不仅仅是对市场定位策略进行建模。然而，在本文的反向优化IRL设置中，我们只有一个代理代表市场本身的有限理性成分，因此它不能与其他代理进行股票交易。因此，其行为不能被观察或解释为投资组合中股票数量的变化。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝