纳什均衡的深度Q学习：纳什DQN

2022-6-14 13:41:09

Nash均衡的深度Q学习：Nash DQNPhilippe Casgrain：，Brian Ning；，和Sebastian Jaimungal§摘要。多智能体随机博弈的无模型学习是一个活跃的研究领域。然而，现有的强化学习算法通常局限于零和博弈，并且仅适用于小状态动作空间或其他简化设置。在这里，我们开发了一种新的数据效率deep-Q-learning方法，用于一般和随机博弈的纳什均衡的无模型学习。该算法使用随机博弈的局部线性二次展开，从而得到分析可解的最优行为。扩展通过深度神经网络进行参数化，使其能够灵活地学习环境，而无需经历所有状态-动作对。我们研究了源于标签不变随机博弈的算法的对称性，并作为概念证明，将我们的算法应用于竞争电子市场中的最优交易策略学习。1、简介。在自然科学和社会科学中，对相互作用主体系统平衡的研究是普遍存在的。研究这些平衡方程的经典方法是建立相互作用系统的模型，求解其平衡，然后研究其性质。然而，这种方法往往会遇到复杂的情况，因为必须在（i）模型可跟踪性和（ii）捕获其旨在表示的数据主要特征的能力之间取得平衡。与其采用基于模型的方法，不如推导出非参数强化学习（RL）方法来研究这些平衡。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:41:12

这些方法背后的主要思想是直接从模拟或观测数据中近似平衡，为常规方法提供了一种强有力的替代方法。关于RL的大多数现有文献都致力于单人游戏。大多数现代方法要么遵循深度Q学习方法（如[16]），要么遵循策略梯度方法（如[18]），要么遵循它们的混合方法（如[7]）。RL方法也被开发用于多智能体博弈，但大部分局限于零和博弈的情况。有关详细信息，请参见[1]。最近有一些研究将RL扩展到一般和博弈，如[9]所述，或者如[14]所述，使用迭代定点方法。在（离散状态行动空间）平均场博弈的特定背景下，[6]提供了求解纳什均衡的Q学习算法。现有的许多算法要么是由于游戏的规模和复杂性增加时的计算困难性，要么是由于状态-动作空间变得连续，要么是由于能够模拟复杂的游戏行为。Hu和Wellman[8]介绍了一种基于Q学习的方法来获得一般和随机博弈中的纳什均衡。虽然他们证明了有限游戏和动作空间的游戏算法的收敛性，但他们的方法在计算上不可行，除了SJ想感谢加拿大自然科学和工程研究委员会（NSERC）的支持，[资金参考号RGPIN-2018-05705和RGPAS-2018-522715]：加拿大多伦多大学统计科学系（p。casgrain@utoronto.ca).;加拿大多伦多大学统计科学系（brian。ning@mail.utoronto.ca).§加拿大多伦多大学统计科学系（塞巴斯蒂安。jaimungal@utoronto.ca, http://sebastian.statistics.utoronto.ca.)最简单的例子。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-14 13:41:15

他们方法中的主要计算瓶颈是需要重复计算状态上的局部纳什均衡，这在一般情况下是一个NP难操作。此外，在[8]中提出的方法不适用于代理选择连续值控制的游戏，也不适用于具有高维游戏状态表示或具有大量玩家的游戏。相反，我们将[19，5]的iLQG框架和[8]的纳什Q-学习算法结合起来，生成了一种可以在这些更复杂和实际相关的环境中学习纳什均衡的算法。特别地，我们将状态动作值（Q）-函数分解为值函数和优势函数之和。我们使用神经网络近似值函数，并且我们局部地将代理行为中的优势函数近似为线性二次函数，系数是神经网络给出的特征的非线性函数。这使我们能够根据网络参数在特征空间中的每个点（即所有代理的最优操作）解析地计算纳什均衡。利用这种封闭形式的局部纳什均衡，我们导出了一种迭代的行动者-批评家算法来学习网络参数。原则上，我们的方法允许我们处理具有大量相同状态特征和较大动作空间的随机博弈。此外，我们的方法可以很容易地适用于平均场博弈（MFG）问题，这是由于某些随机博弈的有限人口限制（见[11、15、2]），如在[3、4]中开发的博弈，或主要次要代理FGS，如在[10、17、12]中研究的博弈。我们提出的方法的一个缺点是对所提出的Q函数逼近器的局部结构的限制。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:41:18

然而，我们发现，所提出的近似值在大多数情况下都有很好的表达能力，并且在本文中的数值例子中表现良好。本文的其余部分结构如下。第二节介绍了一般和随机对策的一般马尔可夫模型。在第3节中，我们给出了随机博弈的最优性条件，并激励我们的Q-学习方法来寻找纳什均衡。4介绍了Q函数的局部线性二次近似和结果学习算法。我们还提供了一些标签不变博弈中出现的简化。第5节介绍了实现细节，第6节给出了一些示例。2、模型设置。我们考虑一个具有代理i P N的随机博弈：“t1，2，…，Nu都在一起竞争。我们假设博弈的状态通过随机过程txttpnso表示，对于每个时间t，xtP X，对于一些可分离的Banach空间X。在每个时间t，代理i选择一个动作ui，tP ui，其中ui被假定为可分离的Banach空间。在续集中，我们使用符号u\'i，t“puj，tqjPN{tiuto表示时间t时除agent-i以外的所有agent的动作向量，而符号ut“puj，tqjpn表示所有agent的动作向量。我们假设博弈是一个具有完全可见博弈状态的马尔可夫决策过程（MDP）。MDP假设等价于假设联合状态动作过程pxt，utqt“1是马尔可夫，其状态转移概率由平稳马尔可夫转移核ppxt ` 1 | xt、utq和初始状态分布ppxq定义。在游戏的每个步骤中，代理收到的奖励根据游戏的当前状态、他们自己选择的动作和所有其他代理的动作而变化。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:41:22

agenti的奖励由函数px、ui、u'iqThniripx表示；ui，u'iq P R，以便在每个时间t，agent-i累积奖励ripxt；ui、t、u’i、tq。我们假设每个函数Ri在Ui中是连续可微且凹的，并且在x和u’i中是连续的。在每个时间t，agent-i可以观察其他agent的动作u’i，t，以及博弈xt的状态。此外，每个agent-i根据确定性Markovpolicy X Q XTh~nπipxq P Ui选择其动作。agent-i的目标是选择能够最大化目标函数Ri的政策π，该函数代表了他们在游戏剩余过程中的个人预期折扣未来回报，给定了他们自己的固定政策πIf和所有其他玩家的固定政策πIf。agent-i的目标函数为（2.1）Ripx；πi，π'iq“E<<"yt”0γ'tiripxt，πi，t，π'i，tq ff，其中期望值超过过程pxtqtPN，x“x”，其中我们假设γiP p0，1qis是表示贴现率的固定常数。在方程（2.1）中，我们使用压缩旋转πi，t：“πipxtq”和π'i，t：“π'ipxtq”。代理的目标函数（2.1）明确依赖于所有代理的策略选择。然而，每个代理只能控制自己的策略，并且必须在限制所有其他参与者行为的同时选择自己的行为。因此，Agent-i寻求一种优化其目标函数的策略，但对其他人的行为保持鲁棒性。最后代理人的政策形成纳什均衡——一组政策πpxq“tπipxquipn，这样单个代理人单方面偏离该均衡将导致该代理人的目标函数值下降。正式地说，如果（2.2），我们认为一组政策π形成纳什均衡Ri\'x；πi，πiRi\'x；πi，πi适用于所有可接受的保单πi，适用于所有保单N。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

2022-6-14 13:41:26

非正式地说，我们可以将纳什均衡解释为每个代理同时最大化自己的目标函数，同时又以其他代理的行动为条件的策略。3、最优性条件。我们的最终目标是获得一种算法，该算法可以在不事先了解其动力学的情况下实现博弈的纳什均衡。为了做到这一点，我们首先确定比上述aNash平衡的正式定义更容易验证的条件。我们继续扩展著名的纳什均衡Bellman方程。在去掉π'i fix的同时，我们可以将动态规划原理应用于代理——i rewardRipx；πi，πiq导致（3.1）Ripx；πi，πiq“maxuPUi”ripx，u，πipxqq`γiEx"pp | x，uq“ripx；πi，1，πi，1q‰*。在纳什均衡下，方程（3.1）同时满足所有i P N。为了更简洁地表达这一点，我们引入了向量表示法。首先定义向量值函数Rpx；πq“pRipx；πi，π'iqqiPN，由目标函数的叠加向量组成。我们将在纳什均衡点评估的叠加目标函数称为附加值函数，我们将其写为V pxq：“pVipxqqiN”Rpx；πq。接下来，我们定义纳什状态作用值函数，也称为q函数，其中表示Qpx；uq：“pQipx；ui，u'iqqiPN，其中（3.2）Qpx；uq“rpx；uq`γiEx"pp | x，uq”V pxq‰，其中我们表示rpx，uq：“pripx，ui，u'iqqipn，表示向量化的奖励函数。Q的每个元素都可以解释为其目标函数可能采取的预期最大值，给定固定的当前状态x和所有代理都可以执行的固定（任意）即时操作。接下来，我们定义Nash运算符如下。定义3.1（纳什算子）。考虑N个凹实值函数的集合，fpuq“pfipui，u'iqipn，其中fi:Ui'Su'i尼R。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:41:29

我们将纳什算子NuPUfpuqTh~nfpuq定义为从函数集合到纳什均衡值uP RN的映射，其中，u“arg NuPUfpuq是唯一满足的点，fi`ωi，uifi` ui，ui，@ωiP ui，和@i P N.（3.3），对于函数f的高效正则集合，纳什算子对应于同时最大化其第一个参数ui中的每个fi。该定义为我们提供了值函数和代理的Qfunction之间的关系，如V pxq“NuPUQpx；uq。使用纳什算子，我们可以将Bellman方程（3.1）以简洁的形式表示为V pxq”NuPUQpx；uq“NuPU”rpx；uq`γiEx"pp¨x，uq“V pxq‰*，（3.4），我们在本文的其余部分将其称为Nash Bellman方程。值函数方程（3.4）的定义意味着π“NuPUQpx；uq。因此，为了确定纳什均衡π，有必要获得Q函数并对其应用纳什算子。这一原则将为我们在本文其余部分所采取的方法提供信息：与其通过方程（2.1）和（2.2）直接搜索纳什均衡的政策集合空间，我们可以依赖于确定满足纳什均衡的函数Q(3.4),计算π后“NuPUQpx；uq.4.局部线性二次Nash Q-学习。在本节中，我们制定了一种算法，用于学习前一节中描述的随机博弈的Nash均衡。我们采取的方法背后的主要思想是构造agent-i的Q-函数的参数估计量^Qθ，在这里我们搜索参数集θPΘ，从而得到估计量^Qθ近似满足纳什-贝尔曼方程（3.4）。因此，我们的目标是将数量（4.1）最小化，例如ρx、pp | x、uq<<>>>>Qθpx；uq'rpx；uq′γiNuPU^Qθpx；uq>>>>fff，在所有u中，我们将ρ定义为对游戏状态x的无条件可预测性度量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-14 13:41:32

方程式（4.1）设计用于测量方程式（3.4）左右两侧之间的间隙。我们也可以将其解释为^Qθ和Q的真实值之间的距离。表达式（4.1）很难理解，因为我们不知道ρ或pp¨x，uq a-priori，并且我们希望对系统动力学几乎没有假设。因此，我们采用基于模拟的方法，用（4.2）Lpθq“MM"ym”1近似（4.1^Qθpxm；umq'rpxm；umq'γiNumPU^Qθpxm；umq公司,其中，对于每个m“1，2，…，m，pxm，um；xmq表示从游戏中观察到的过渡三元组。然后，我们搜索使Lpθq最小化的θPΘ，以近似于^q。我们的方法是由Hu和Wellman【8】以及Todorov和Li【19】【8】提出的提出了一种Q-学习算法，其中可以通过依赖于Nashoperator NuPU^Qθ重复计算的更新规则来估计^Q，而^Q假设只取很多值。由于NuPU^Qθ的计算通常是NP困难的，因此这种方法证明除了平凡的例子之外，在计算上是难以处理的。为了避免这个问题并使用更具表现力的参数化模型，我们对Gu等人的技术进行了概括和调整。[5] 在多智能体博弈设置中，开发一种计算和数据高效的算法来近似纳什均衡。在我们的算法中，我们额外假设博弈状态x P x和actionsuiP ui是实值的。具体地说，我们假设每个i P N的X“rdxf或某个正整数dxandUi”rdi，其中d，…dn都是正整数。为了便于注释，我们定义d'i：“rjPN{tiudj。我们现在定义了一个用于收集近似Q函数的特定模型^Qθpx；uq”P^Qθipx；uqqiPN。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:41:35

对于每个θPΘ，我们都有^Qθ：X'SU~nr，并将Q函数分解为两个分量：（4.3）^Qθpx；uq“^Vθpxq ` pAθpx；uq，其中^Vθpxq”p^Vθipxqqipn是一个值函数集合的模型，因此^Vθ：X~nRNand where pAθpx；uq“ppAθipx；uqqipn是我们所称的优势函数集合。优势函数代表了^Q和^V之间的最优差距。我们进一步假设，对于每个i p N，pAθih是线性二次型（4.4）pAθipx；uqqipn uq公司“\'^ui'uθipxqu'i'uθ'ipxq'124; Pθipxq'ui'uθipxqu'i'uθ'ipxq'729; `'u'i'uθ'ipxq'i'θipxq'i'ipxq'i'ipxq'i'ipxq'i'θipxq'i'ipxq''i'ipxq'i'θipxq'i 9；，uθipxq:X~nRdiwithuθ'ipxq“PuθipxqqiPN，ψi:X~nRd'i.In（4.5），Pθ11，i:XИRdi^di，Pθ12，i:XИRdi^d'i，Pθ21，i:XИRd'i^dian和Pθ22，i:XИRd'i^d'iare矩阵值函数，对于每个i P N，我们要求Pθ11，ipxq对于所有X P X为正定义，在不丧失一般性的情况下，我们可以选择P12，ipxq“pP21，ipxqq |，因为优势函数仅取决于P12，i和P21，i的对称组合。我们的方法可以很容易地扩展到控制限于Rdi的凸子集的情况。因此，我们不是建模^Qθpx；uq，而是将函数^Vθ，uθ和tpθi，ψθi分别建模为状态空间X的函数。这些函数中的每一个都可以由univ其他函数逼近器，如神经网络。唯一的主要限制是，Pθ11，ipxq必须保持x的正定义函数。通过使用Cholesky分解Pθ11，ipxq，可以很容易地实现这一限制，因此我们将θ11，ipxq“Lθ11，ipxqpLθ11，ipxqq |并对下三角矩阵Lθ11，iP Rdi^di进行建模。在（4.4）中的模型假设隐含地假设agent-i的Q函数可以近似地写成每个agent动作的线性二次函数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-14 13:41:38

通过考虑变量u在纳什均衡点附近的二阶泰勒展开式，以及假设它们是输入ui的凸函数，可以等效地激发这种近似。然而，这种扩展并没有假设QI对博弈状态x的依赖性。（4.4）的形式设计为每个^Qθipx；ui，u'iq是ui的凹函数，保证NuPU^Q是双射的。此外，在我们的模型假设下，纳什均衡是在upxq“upxq”点实现的，在这一点上，优势函数为零，因此我们得到了值函数和均衡策略（4.6）^Vθpxq“NuPU^Qθpx；uq和upxq）的简单表达式“arg NuPU^Qθpx；uq。因此，我们的模型允许我们通过函数uθ和^Vθ直接指定纳什均衡策略和每个代理的价值函数。这种简化的结果是，方程（4.2）中损失函数的和变得容易处理，其中包含纳什均衡，并且其本身以前很难处理。对于每个样本观察（由状态xm、um和新状态xm组成）然后我们有（4.7a）Lmpθq的损失”^Vθpxmq `pAθpxm；umq'rpxm；umq'γi^Vθpxmq,剩下的就是最小化总损失（4.7b）Lpθq“MM"ym”1Lmpθqover参数θ给定一组观察到的状态动作三元组pxm，um，xmqMm”1.4.1。简化游戏结构。方程（4.4）需要函数^Vθ、uθ、tPθi、ψiuiPN的参数模型，这可能会导致非常大的参数空间，原则上需要许多训练步骤。然而，在许多情况下，博弈的结构可以显著降低参数空间的维数，并导致易于学习的模型结构。以下小节列举了这些典型的相似应用。标签不变性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:41:41

许多游戏都有对称的玩家，因此对玩家标签的变异不变性。这种标签不变性意味着每个agent-i在其他游戏参与者之间没有差别，并且agent的奖励函数独立于所有其他agent状态和/或动作的任何重新排序。更正式地说，我们假设对于任意代理-i，游戏状态可以表示为x“px，xi，x'iq，其中x表示不属于任何代理的游戏状态部分，xi表示属于代理i的游戏状态部分，x'i”txjujPN{tiures表示属于其他代理的博弈状态部分。接下来，让∧表示N'1指数集上的置换集，其中对于每个λP∧，我们将集合的置换表示为λptyjuN'1j“1q”tykpjquN'1j“1，其中k:t1，…，N'1u~nt1，…，N'1u是一对一，并从集合的索引映射到自身。标签不变性等同于假设对于任何λP∧，每个代理的回报函数满足（4.8）ripx，xi，λpx'iq；ui，λpu'iqq“ripx，xi，x'i；ui，u'iq。利用此类标签不变性，简化（4.4）中优势函数的线性二次展开形式。假设dj”d，对于所有j P N，仅要求代理的动作具有简化形式（4.9）pAθipx；uq“'>>ui'θipxq>>Pθ11，ipxq''jPN的独立标签不变性{tiuA'ui'uipxqθ\'，uj'uθjpxq'EPθ12，ipxq'jPN{tiukuj'uθjpxqkPθ22，ipxq'jPN{tiu'uj'uθjpxq'ψθpxq，对于所有i P N，我们使用符号}z}M“z | Mz和xy，zyM“y | Mz表示适当的分解矩阵M（4.9）的函数形式允许我们大幅度减小按N阶建模的矩阵的大小。为了对状态施加标签不变性，我们需要对函数近似值^Vθ、uθ、tPi、ψθuiPN的输入具有置换不变性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-14 13:41:44

[20] 为神经网络结构提供置换不变性的必要和充分条件。这一必要且有效的结构定义如下。设φ：Rn尼Rnandσ：Rn尼Rn是两个任意函数。从这些函数中，让finv:RJ^n~nRnbe这些函数的组合，这样（4.10）finvpzq“σ▄J"yJ”1φpzjq,。很明显，以这种方式构建的Finvcon对z组件的重新排序是不变的。方程（4.10）可以解释为一个层，它聚集了输入的所有维度（对应于所有代理的状态），通过φ，以及通过σ将聚合结果转换为输出的层。我们进一步假设φ和σ都是具有适当输入和输出维数的神经网络。这种结构可以作为输入嵌入到更复杂的神经网络中。相同的首选项。很常见的情况是，所有代理的容许行为都是相同的，即。，Ui“U、@i P N和代理具有同质的目标，或者代理的大子群体具有同质的目标。到目前为止，我们允许代理分配不同的绩效指标，并且变化通过一组奖励和折扣率tri、γiuiPN来显示。如果代理具有相同的偏好，那么我们只需假设x；uq“rpx；uq和γi“γ对于所有的i P N。通过定义总折扣报酬、状态行动价值函数和价值函数，相同的偏好和可容许的行动，简单地说，Ri，qind via独立于i。此外，相同偏好的假设，结合标签不变性的假设，可以进一步减少优势函数的参数化。在这个附加假设下我们有一个假设，即所有i的^Vi，pai必须相同，这将所有^Vθi，uθi，Pθi，ψθ的建模简化为对单个i的建模。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:41:47

这进一步减少了必须按N阶建模的函数数量。标签不变性和相同偏好的组合效应会产生复合效应，这会对建模任务产生很大影响，特别是在考虑大量玩家时。备注4.1（子总体不变性和偏好）。我们还可以考虑标签和偏好不变性发生在代理子群体中，而不是整个群体中的情况。例如，在一些代理可能与其他代理合作的游戏中，我们可以假设代理不愿意分别重新标记合作者和非合作者。类似地，我们可以考虑代理组共享相同性能指标的情况。除其他情况外，此类情况会导致建模简化，类似于方程式（4.9），并可简化神经网络结构。在《空间的利益》一书中，我们没有进一步发展简化例子的例子，也没有声称我们提供的列表是详尽无遗的，因为人们可以很容易地想象出许多其他可能感兴趣的几乎对称的例子。5、纳什行动者批评算法的实现。利用优势函数的局部线性二次形式和前一节中概述的简化假设，我们现在可以通过迭代优化和采样方案最小化目标（4.2），将参数θ上的和减少到（4.7）上的和。原则上，可以在适当的损失函数上使用反向传播的简单随机梯度下降方法。相反，我们提出了一种演员-评论家风格的算法来提高算法的稳定性和效率。演员-评论家方法（参见。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:41:50

[13] ）已被证明为强化学习方法的最优解提供了更快、更稳定的收敛性，我们的模型自然适用于此类方法。方程（4.3）中的分解允许我们独立于其他组件对值函数^V进行建模。因此我们通过分离参数集θ“pθV，θAq，使用演员-评论家更新规则来最小化损失函数（4.7），其中θvre表示建模的参数集θVθVandθare表示建模PAθA所用的参数集。我们提出的演员-评论家算法通过最小化总损失（5.1a）MM"ym来更新这些参数“1^L pym，θV，θAq，其中，在已经求解纳什均衡之后，与纳什-贝尔曼方程中的误差相对应的单个样本损失为（5.1b）Lpym，θV，θAq”^VθVpxmq` pAθApxm；umq'rpxm；umq'γi^VθVpxmq,有了um，ym“pxm，um，xmq，我们通过在变量θa和θV中交替最小化来最小化损失。下面的算法5.1概述了我们优化问题的演员-评论家程序。我们包括一个重播缓冲区，并使用小批量。重播缓冲区是以前经历过的形式为yt的转换元组的集合“pxt'1，u，xtq代表系统的前一个状态，在该状态下采取的行动，系统的结果状态，以及过渡期间的奖励。我们从replaybu ffer中随机抽取一小批样本，使用SGD更新模型参数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-14 13:41:53

该算法还使用了naive Gaussianexploration策略，尽管它可以被任何其他动作空间探索方法所取代。在θVandθA上的优化步骤中，我们使用随机梯度下降或任何其他算法5.1 Nash DQN演员-评论家算法输入：#集Ba0，小批量大小^Ma0，#游戏步骤九输入：探索噪音tσbuBb“1a0初始化：重播buff D，参数pθA，θvqf对于情节bD1到b doReset模拟，获取初始状态x。对于游戏步骤tD1到N doSelect actions uDuθApxq ` , " N p0，σbIq。观察游戏中的状态转换yt“pxt'1，u，xtq。存储DDyt”pxt'1，u，xtqSample Y“tyiu^Mi“1随机从^M\'1ryPYTtytu^Lpy，θV，θAq overθvo优化步骤^M\'1ryPYTtytu^Lpy，θV，θAq over aendredreturn pθA，θVqadaptive优化方法。6.实验。我们在一个多代理游戏上测试我们的算法，该游戏在电子交易所行为研究中很重要，称为最优执行问题。该游戏由代理交易sin组成将资产与受其影响的随机价格过程联系起来。任意代理人-i，i P N，可以买卖νi，在每个时间段T P T：“t0，1，…，T u。在T”T，代理人必须完全清算其持有的资产。每个代理人-i跟踪其库存qi，T”qi，0 `rts“0νi，沙库存对分配代理人可见。我们假设资产价格过程根据离散动力学（6.1）St ` 1 ` St”gpSt，νtqT\'gpSt，νtq？TξT，初始条件为S。这里，对于所有TρT，νT“pνi，tqip和ξ皮重iid N p0，1q。所有代理行为的影响都通过函数和g中资产价格动态的漂移和噪声来显示。我们假设与νtsothat的顺序有关的甘德·加雷不变量，对于相同的库存，无论哪个代理在交易，S的响应是相同的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:41:57

此外，每个代理支付的交易成本与他们在每个时间段内决定购买或出售的金额成比例。代理跟踪其交易总现金，我们表示相应的流程Xi，t“rts”0νi，spSs\'bνi，sq，其中ba0是交易成本常数。代理人的目标是最大化（i）到t时他们拥有的现金总额，（ii）风险承担的罚款，以及（iii）到t时的超额敞口。我们将代理人-i的目标（总预期回报）表示为（6.2）Ri：“E<<Xi，t\'qi，TpST\'bqi，Tq\'bT"yt”1qi，tf，其中b，ba0。在等式（6.2）中，第二项作为在时间T即时清算库存的成本，最后一项作为承担与每个时间段持有量平方成比例的超额风险的惩罚。在这个目标函数中，所有代理人交易行为的影响都通过St的动态隐含地显现出来，并通过其对现金流程的影响Xi，t。这种特殊形式的目标假设代理人具有相同的偏好，这些偏好对代理人重新贴标签是不变的。因此，我们可以使用第4.1小节中讨论的技术来简化advantagefunctionpA的形式。在我们的示例中，我们使用包含置换不变层的神经网络对优势函数PA的每个组件进行建模。我们的实验假设在五个时间步长（T“15）的时间范围内总共有五个代理，库存水平限制在正负100个单位之间（qi，tPr'100，100s，对于所有i P N，T P T）。6.1特征。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:42:00

我们使用以下特性来表示时间t时环境的状态XT：价格（St）：表示资产当前价格的标量，时间（t）：表示代理在时间范围内的当前时间步的标量，以及库存（pqi，tqiPN）：表示所有代理的库存水平的向量。我们假设前两组特征（价格和时间）加上每个代理的单个库存（qi，t）是非标签不变的，而所有其他代理的库存水平（tqi，tuiPN{tiu）是标签不变的。6.2网络细节。优势函数近似PAθa的网络结构由两个网络组件组成：（i）一个注入（ii）的置换不变层主网络层。置换不变层的输入是标签不变特征。如第4.1小节所述，该层是一个完全连接的神经网络，有三个隐藏层，每个隐藏层包含20个节点。层通过ReLU activationfunctions连接。然后，我们将该置换不变量的输出与非标号变体特征相结合，并将它们一起构成主网络的输入。主网络由三个隐藏层组成，分别有20个、40个和20个节点。该主网络的输出是第4节中定义的近似优势函数的参数uθ和tPθi，ψiuiPN。这些参数完全指定advantage函数的值。我们可以将其扩展到包括具有同质偏好的子群体的情况，但这在子群体中是异质的。值函数逼近^VθV的网络结构包含四个隐藏层，分别有20、60、60和20个节点。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:42:03

该网络采用第6.1小节中描述的所有状态的特征，并输出所有代理的近似值函数。我们使用小批量随机梯度下降法来优化第5节中定义的损失函数。小批量大小设置为100个均匀抽样的重播buffer过去的经验。重播buffer设置为最大五千套转换，当达到大小限制时，将从buffer中移除最古老的转换。学习率设置为0.01，并在整个培训过程中保持不变。培训总共进行了15000次模拟。在接下来的两小节中，我们使用两种常见的价格影响函数——线性情况和平方根情况来研究结果。在这两种情况下，在没有交易的情况下，假设价格过程意味着恢复。6.3. 线性价格影响。在本例中，我们假设一个具有线性价格影响的均值回复价格过程，对应于选择（6.3）gpSt，νtq“κpθ'Stq'b"yiPNνi，t和gpSt，νtq”σ，其中b，κ，θ，σa0分别是与净交易的价格影响、价格过程的平均回复率、平均回复水平和资产的波动性相对应的常数。我们将所有其他代理的平均库存和相应的平均库存表示为（6.4）'ν'i：“N'1"yjPN{tiuνj，t和'q'i：“N'1"yjPN{tiuqj，t，@i P N，分别。在我们的实验中，我们使用表1中的参数。回想一下，代理的回报函数由（6.2）给出，而B对应于终端和运行风险惩罚。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:42:07

为了限制代理人在时间步T必须处于中立地位，我们设置了b“`8.表1：资产价格过程、价格影响和风险偏好参数。κθσbbbT0.1 10 1 0.3\'8 0.1图1通过查看单个代理的最佳交易策略，说明了由此产生的纳什均衡。具体而言，它显示了第一个代理的最佳行动的热图ν1、时间、价格、库存以及其他代理的平均库存有所不同。面板（a）、（b），和（c）表示所有其他代理的平均库存水平为长（\'q\'i“20）、零（\'q\'i“0）和短（\'q\'i”20）的状态分别地每个面板进一步分为不同资产价格t$6、$8、…、$14u从左到右。每个子批次的y轴表示第一个代理的库存水平，x轴表示当前时间步长。（a） \'q'i“20（b）\'q'i”0（c）\'q'i“'20图1：线性价格影响的最佳交易执行热图，作为时间、库存、价格和其他代理的平均库存的函数。在每个面板中，子批次从左到右对应价格水平$6、$8、$14。虚线显示代理从购买切换到出售的阈值。图2：库存路径示例和对应的价格路径线性冲击模型。实线表示代理的库存路径，虚线表示资产价格路径。如图所示，每当代理商的库存明显为负时，他们就会买入，当库存明显为正时，他们就会卖出。切换发生的阈值取决于系统的其他功能，包括：自交易期开始以来的时间、资产价格和其他代理的库存水平。系统越接近交易周期的终点，该阈值就越接近零库存水平。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:42:11

这是限制所有代理在时间步T具有中立立场的副产品。在任何一个面板中，从左到右的子地块移动时，阈值向下移动，有时低于零库存。相比之下，其他代理的平均库存较高通常会增加阈值。根据最优策略，通过代理活动的样本库存路径可以更清楚地看到其中的一些特性–见图2。所有代理的初始库存都是从正态分布（q"Np0，σqIq，σq“5）中随机抽取的，但跨列保持不变，但跨行变化。初始资产价格是从正态分布（p"N p10，σpq，σp“1）中随机抽取的，但跨行保持不变，但跨列变化。资产价格过程是模拟的（使用影响函数（6.3））和（6.1）中的动力学），行之间的随机种子相同，但列之间的随机种子不同。通常，所有代理的库存都会趋同，最终在交易期结束时消失，并对资产价格的变化作出反应，但在价格低时买入，在价格高时卖出。6.4. 平方根价格影响。另一个重要的价格影响函数是平方根影响，它对应于选择：（6.5）gpSt，νtq“κpθ'Stq'bsgnp'νtqa'νt'和gpSt，νtq”σ，其中b，κ，θ，σ2610分别是与净交易的价格影响、价格过程的平均反转率、平均反转水平和资产的波动性相对应的常数。对于我们的实验，我们使用与表1中相同的参数。作为提示，代理人的奖励函数由（6.2）和B级对应终端和运行风险处罚。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-14 13:42:19

图1和图2中平方根情况下的热图和样本库存路径的类似物可在图3和图4中找到。然而，第6.3小节中的大部分观察结果都适用于平方根情况，一个关键区别是其他代理的库存对单一代理的最佳行动的影响程度。在这里，增加其他代理商库存的影响明显低于线性价格的情况。这一点也可以从图4中的样本库存路径中观察到，尽管不太清楚，其中初始库存明显不同于零的代理收敛到其他代理的库存的速度更慢–尤其请参见中心面板。（a） \'q'i“20（b）\'q'i”0（c）\'q'i“'20图3：作为时间、库存、价格和其他代理的平均库存函数的平方根价格影响的最佳交易执行热图。在每个面板中，子地块从左到右对应价格水平$6、$8、$14。虚线显示代理从购买切换到出售的阈值。图4：库存路径示例和相应的价格路径s表示平方根冲击模型。实线表示代理的库存路径，虚线表示资产价格路径。7、结论。在这里，我们提出了一个计算可处理的多智能体（随机）博弈的强化框架。我们的方法在将代理的状态动作值函数集合分解为单个值函数及其优势函数后，利用函数近似。此外，我们用线性二次型近似优势函数，并使用神经网络结构来近似值和优势函数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:42:22

游戏中的典型对称性允许我们使用由Arnold Kolmogorov表示定理激发的置换不变神经网络来降低参数空间的维数。最后，我们开发了一个演员-评论家范式来估计参数，并将我们的方法应用于电子交易中的两个重要应用。我们的方法数据效率高，适用于大量参与者和连续状态动作空间。有许多有待探索的门，包括将我们的方法扩展到有潜在因素驱动环境的情况，以及当所有试剂的状态部分（或完全）对任何单个试剂隐藏时。此外，我们的方法可以很容易地应用于平均场博弈，该博弈对应于随机博弈的有限人口限制，其中任何个体代理对状态动力学只有有限的贡献。参考文献【1】L.Bu、R.Babu、B.De Schutter等人，《多智能体强化学习综合调查》，《IEEE系统、人与控制论交易》，C部分（应用与评论），38（2008），第156-172页。[2] R.Carmona和F.Delarue，《平均场对策概率理论：第一卷，平均场fbsdes，控制与对策，随机分析与应用》。Springer Verlag（2017年）。[3] P.Casgrain和S.Jaimungal，《算法交易中具有不同信念的平均场游戏》，arXiv预印本arXiv:1810.06101，（2018）。[4] P.Casgrain和S.Jaimungal，《具有算法交易部分信息的平均场游戏》，Philippe，arXiv预印本arXiv:1803.04094，（2018）。[5] S.Gu、T.Lillicrap、I.Sutskever和S.Levine，《基于模型加速的持续深度q学习》，国际机器学习会议，2016年，第2829-2838页。[6] X.Guo、A.Hu、R.Xu和J。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-14 13:42:26

张，学习平均场游戏，arXiv预印本arXiv:1901.09585，（2019）。[7] M.Hessel、J.Modayil、H.Van Hasselt、T.Schaul、G.Ostrovski、W.Dabney、D.Horgan、B.Piot、M.Azar和D.Silver，《Rainbow：深度强化学习的结合改进》，第三十二届AAAI艺术情报会议，2018年。[8] J.Hu和M.P.Wellman，《一般和随机博弈的纳什q学习》，机器学习研究杂志，4（2003），第1039-1069页。[9] R.Hu，《随机差异游戏的深度游戏》，arXiv预印本arXiv:1903.09376，（2019）。[10] M.Huang，《涉及主要参与者的大规模LQG博弈：纳什确定性等价原则》，暹罗控制与优化杂志，48（2010），第3318-3353页。[11] M.Huang，R.P.Malham'e，P.e.Caines等，《大种群随机动态博弈：闭环mckean-vlasov系统和纳什确定性等价原则》，信息与系统通信，6（2006），第221-252页。[12] X.Huang、S.Jaimungal和M.Nourian，《优化执行的平均场博弈策略》，AppliedMathematical Finance，即将出版，（2015年）。[13] V.R.Konda和J.N.Tsitiklis，《演员-评论家算法》，神经信息处理系统进展，2000年，第1008-1014页。[14] M.Lanctot、V.Zambaldi、A.Gruslys、A.Lazaridou、K.Tuyls、J.P'erolat、D.Silver和T。Graepel，《多智能体强化学习的统一博弈论方法》，《神经信息处理系统进展》，2017年，第4190–4203页。[15] J.-M.Lasry和P.-L.Lions，《平均场游戏》，日本数学杂志，2（2007），第229-260页。[16] V.Mnih、K.Kavukcuoglu、D.Silver、A.Graves、I.Antonoglou、D.Wierstra和M.Riedmiller，《用深度强化学习弹奏雅达利》，arXiv预印本arXiv:1312.5602，（2013年）。[17] M.Nourian和P.E。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝