一般对策中的最优回复结构与均衡收敛

2022-5-31 08:58:15

我们在五个案例中考虑了批量学习，但我们也研究了一个在线学习实例（带噪声的EWA），并表明结果对随机性具有鲁棒性。该代码可根据要求提供给相应的作者。除非我们选择一个参数设置，例如，在该参数设置中，所有学习动态都会收敛到与纳什均衡相差很远的固定点，而与支付矩阵无关。见下文。Conlisk[S2]在两个房间的实验中证明了这一假设：玩家在两个单独的房间里，需要在知道舞台游戏的结果之前进行多次对抗。布鲁姆菲尔德[S3]在一个实验装置中实现了这一想法。另一个重要的普遍观点是，我们检查收敛到固定点，但这些可能或可能不符合纳什均衡。例如，如果活动游戏收敛到固定点，则这是一个纳什均衡【S4】，但如上所述，记忆极短的EWA可能会收敛到任意远离纳什均衡的固定点。不幸的是，在有大量动作的游戏中，计算全套纳什均衡，然后检查与模拟固定点的距离在计算上是不可行的。在2×2博弈和EWA的特定情况下，具有足够长的记忆，固定点非常接近纳什均衡（例如，在10-6或更少）[S6]。由于EWA、带噪声的EWA、k级学习和强化学习的收敛频率与实际游戏和复制者动态（精确达到纳什均衡）非常相似（参见主要论文中的图2），我们认为固定点和纳什均衡之间缺乏完美对应不是主要问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-5-31 08:58:19

如果说有什么区别的话，那么收敛到纳什均衡的可能性将更大，这加强了我们论文的主要信息。S1.1.1注释考虑一个2人N步标准形式游戏。我们按u对玩家进行索引∈ {行=R，列=C}和它们的移动由i，j=1。N、设xui（t）为玩家u在时间t玩移动i的概率，即其混合策略向量的第i个分量。为了简单起见，我们还用xi（t）表示玩家R在时间t玩招式i的概率，用yj（t）表示玩家C在时间t玩招式j的概率。我们进一步用su（t）表示玩家u在时间t实际执行的移动，用su（t）表示-对手采取的行动。玩家u的支付矩阵是∏u，如果他玩move i，而另一个玩家选择move j，则∏u（i，j）作为支付矩阵。因此，如果玩家行玩策略i和玩家列玩策略j，他们分别会收到支付函数∏R（i，j）和∏C（j，i）。S1.1.2强化学习作为强化学习的一个例子，我们使用参考文献中的规范研究了Bush-Mosteller学习算法[S7]。【S8】和【S9】。这不是强化学习的唯一可能选择。例如，Erev和Roth提出了其他算法【S10】。我们关注Bush-Mosteller算法，因为它是与我们考虑的其他算法最不同的学习规则。在Bush-Mosteller版本的强化学习中，每个玩家都有一定程度的灵感，即他的贴现平均薪酬。这会让玩家对每一步都感到满意——如果玩家因选择这一步而获得的回报大于激励水平，则为正，否则为负。如果满意度为正，则重复某个动作的概率会增加，如果满意度为负，则会降低。正式定义更正式地说，让Au（t）为时间t时玩家u的期望水平。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-5-31 08:58:22

Itevolves根据au（t+1）=（1- α） Au（t）+α∏u（su（t），s-u（t））。（S1）抽吸是在时间t∏u（su（t），s）时收到的付款的加权平均值-u（t）），和过去的吸入水平。因此，过去收到的付款按系数1贴现-α。此外，两种群复制子动力学的唯一稳定不动点是纯策略纳什均衡[S5]。相反，Erev Roth算法可被视为EWA的特例，见S1.1.5节。α表示记忆丧失率。满意度定义为σui（t）=∏u（i，s-u（t））- Au（t）最大值，j∏u（i，j）- Au（t）|。（S2）在时间t采取行动i后，如果玩家u收到的报酬高于他的期望，则他会有积极的满意度。请注意，α也被称为习惯化，因为玩家对动作i的重复选择u会导致期望水平与动作i的支付相对应。当玩家习惯化时，满意度将接近零。在式（S2）中，分母是将σ保持在-1和+1范围内的非均化因子。【S8】重新播放移动i的概率更新为asxui（t+1）=（xui（t）+βσui（t）（1- xui（t）），σui（t）>0，xui（t）+βσui（t）xui（t），σui（t）<0。（S3）在上述等式中，β是学习率。积极的满意度会导致可能性的增加（但习惯化会减缓并最终停止上升，因为习惯化会降低满意度），消极的满意度则会产生相反的效果。未执行的移动的概率将根据规范化条件进行更新。用j 6=i表示它们，我们有xuj（t+1）=xuj（t）- βσui（t）xuj（t），σui（t）>0，xuj（t）- βσui（t）xui（t）xuj（t）1-xui（t），σui（t）<0。（S4）到目前为止描述的学习算法是随机的。如前所述，我们希望采取确定性限制，即球员在更新混合策略之前，观察对手的大量动作样本。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-5-31 08:58:25

我们假设样本足够大，因此可以用混合策略向量进行识别。为了简单起见，我们切换到表示xRi（t）的符号≡ xi（t）和xCj（t）≡ yj（t）。我们也只考虑玩家行，因为列的learningalgorithm是等价的。吸气更新asAR（t+1）=（1- α） AR（t）+αXi，jxi（t）∏R（i，j）yj（t）。（S5）计算以正概率进行的所有动作i的满意度：σRi（t）=Pijxi（t）yj（t）∏R（i，j）- AR（t）最大值，j∏R（i，j）- AR（t）|。（S6）最后，根据概率xi（t），更新混合策略向量的所有组件，就像它们被播放一样，或者就像它们没有被播放一样。更新规则是xi（t+1）=xi（t）+xi（t）xi（t）+Xj6=ixj（t）xij（t）。（S7）此处，xi（t）是玩家行选择移动i的贡献（发生概率为xi（t），因此为乘法项），以及xij（t）是由于选择了另一个移动j（即规范化更新）而对移动i作出的贡献，每个移动都以概率xj（t）发生。以下等式：。（S3）和（S4），我们有xi（t）=（βσRi（t）（1- xi（t）），σRi（t）>0，βσRi（t）xi（t），σRi（t）<0，（S8）0 500 1000 1500 20000.000.250.500.751.000 500 1000 1500 20001081061021000 500 1000 1500 20000.000.250.500.751.000 500 1000 1500 2000106102100txi（t）图S1：N=20的Bush-Mosteller强化学习算法的模拟运行实例。每一行都是行的混合策略向量的一个组件（并非所有组件都可见，因为它们重叠）。左侧面板：非收敛模拟运行。右面板：聚合模拟运行。顶部面板：线性比例。底部面板：垂直轴上的对数刻度。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-31 08:58:29

仅显示5000个时间步长中的前2000个。和xij（t）=(-βσRj（t）xi（t），σRj（t）>0，-βσRj（t）xj（t）xi（t）1-xj（t），σRj（t）<0。（S9）收敛标准在图S1中，我们显示了收敛和非收敛模拟运行的实例。正如底部面板中的对数图所示，混合策略向量的任何组成部分都不会在模拟时间内达到固定点。原因很简单：Eqs。（S7）没有记忆丧失项，因此不成功策略的概率随着时间的推移不断降低。只有数值近似才会产生固定点，但在大多数参数设置下，Bush-Mosteller动力学需要很长时间才能达到机器精度边界。因此，我们选择一种简单的启发式方法来确定学习动态是否达到了一个固定点：1。只考虑最后20%的时间步。2、只保留使用频率大于1/N.3的动作。如果平均标准偏差（即最频繁移动的平均值）大于0.01，则将模拟运行确定为非收敛。否则，将其标识为收敛。我们用略有不同的规格进行试验，对结果没有显著影响。注意等式（S3）和等式（S9）之间的小符号杂波。在等式（S3）中，移动j是由于玩移动i而更新的。在等式（S9）中，移动i是由于玩移动j而更新的，概率为xj（t）。参数值如果抱负记忆损失α和/或学习率β非常小，则学习动态始终达到策略单纯形中心的固定点，而与支付矩阵无关。在这个固定点上，玩家只需在所有动作之间随机化。从某种意义上说，他们并没有从游戏中学习。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-31 08:58:33

除了这种不切实际的情况外，我们没有观察到对参数值的太多敏感性。我们在α=0.2和β=0.5的情况下进行了模拟。我们通过迭代等式来模拟学习动态。（S7）5000个时间步。S1.1.3虚拟游戏虚拟游戏最初是作为计算游戏纳什均衡的算法提出的，后来被解释为学习算法【S11，S4】。这是信仰学习的一个例子。与强化学习不同的是，在强化学习中，玩家更新他们对对手可能采取的行动的信念，并对他们的信念做出反应。在实际游戏中，每个玩家都会根据对手的经验分布来估计自己的混合策略，根据这个信念计算出自己动作的预期收益，并选择能够最大化预期收益的动作。在这里，我们研究了标准的实战游戏算法，在该算法中，玩家平均权衡所有过去的动作，并确定选择表现最好的动作。变型包括【S12】加权实战，玩家对对手过去的动作进行折扣，对最近的动作给予更高的权重；随机实战，玩家以一定的概率选择表现最好的动作，并可能以较小的概率选择所有其他动作。我们将重点放在标准的实际播放算法上，因为其他版本只是EWA的特例（见S1.1.5节）。正式定义玩家行计算时间T时预期混合策略列的第j个分量，我们用▄yj（T）表示，简单地说，是过去j被显示的次数的分数：▄yj（T）=PTt=1I（j，sC（T））T.（S10）在上述等式中，I（a，b）是指示函数，I（a，b）=1，如果a=b，I（a，b）=0，如果a=b。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-31 08:58:36

然后，玩家行选择在时间T，i（T）=argmaxkXj∏R（k，j）~yj（T）最大化预期收益的移动。（S11）柱的性能相当。收敛准则我们考察估计的混合策略向量在时间t、~xi（t）和~yj（t）上的收敛性。如图S2所示，游戏行为与Bush Mosteller dynamics非常相似。因此，我们使用相同的收敛标准。请注意，随着t的增加，更改预期策略需要越来越多的时间。在某种意义上，玩家的行为变得更加固定，因为他们需要更多的抽样证据来改变他们的期望。如果β太大，我们会遇到数值问题，因为学习动态超出了策略SimplexBounders。对于N=5，数值近似使动力学在2000个时间步后失去规范化。在这种情况下，我们只模拟2000个时间步。因为我们用随机系数来研究支付矩阵，所以几乎不可能两次移动产生相同的支付。如果是这样的话，通常玩家会以相同的概率在这些动作中进行选择。0 20000 400000.000.250.500.751.000 20000 400001041031021011000 20000 400000.000.250.500.751.000 20000 40000104103102101100txi（t）图S2：N=20的模拟游戏运行实例。每一行都是行的mixedstrategy向量的一个组件（并非所有组件都可见，因为它们重叠）。左面板：非收敛simulationrun。右面板：聚合模拟运行。顶部面板：线性比例。底部面板：垂直轴上的对数刻度。我们在这里展示了50000个时间步，尽管5000次迭代足以几乎同样准确地测量收敛率。参数值虚拟播放没有参数。我们只需要选择最大迭代次数，即5000次。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-31 08:58:39

我们尝试了更长的时间序列（50000个时间步），但精度和速度之间的权衡是不利的。S1.1.4复制子动力学复制子动力学【S13】是进化博弈论中使用的标准工具【S14】。它是一个典型的模型，代表了群体中具有某些特征的个体的进化。每个性状的适合度取决于其他性状的群体份额和平均适合度。虽然复制子动力学主要用于种群生物学，但它也被作为博弈论中的一种学习算法进行研究。关键的联系在于思想的普及[S15]。每一步都可以被视为一个特征，每个特征的种群份额的演化对应于混合策略向量各组成部分的动态。复制因子动力学最典型的形式只涉及一个种群。如果支付矩阵是对称的，则可以将博弈视为焦点玩家与其他人群之间的博弈。然而，考虑到一般和随机确定的两人博弈，支付矩阵通常是不对称的。这自然会导致两种群复制动力学。两种群算法的动力学特性不同于单种群算法。就我们的目的而言，最重要的区别在于单种群复制子动力学通常收敛于混合策略纳什均衡，其中，两个种群复制因子动力学仅收敛于严格的纳什均衡（即纯策略均衡，其中均衡的收益严格大于对手不改变其招式时可获得的任何其他收益）[10]。0 500 1000 15000.00.20.40.60.81.00 500 1500 101521012510981071104410170 200 4000.00.20.40.60.81.00 200 400 10781064105010361022108TXI（t）图S3：N=20的复制器动力学模拟运行实例。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-31 08:58:43

每一行都是行的混合策略向量的一个组件（并非所有组件都可见，因为它们重叠）。左侧面板：非收敛模拟运行。右面板：聚合模拟运行。顶部面板：线性比例。底部面板：垂直轴上的对数刻度。最大模拟时间（1500或500个时间步）由到达机器精度边界的混合策略向量的第一个分量内生确定。正式定义让xiand yjdenote分别与traitsi和j一起计算个体的种群份额，两个种群复制子动力学读数为˙xi（t）=xi（t）Xj∏R（i，j）yj（t）-Xkjxk（t）∏R（k，j）yj（t）,˙yj（t）=yj（t）Xi∏C（j，i）Xi（t）-Xikyk（t）∏C（k，i）xi（t）！。（S12）与相应群体中的平均能力相比，群体行中的特征i和群体列中的特征j的份额根据该特征的能力（如预期收益所示）而变化【37】。复制器动力学需要离散化以进行模拟。我们使用欧拉离散xi（t+1）=xi（t）+xi（t）δtXj∏R（i，j）yj（t）-Xkjxk（t）∏R（k，j）yj（t）,yj（t+1）=yj（t）+yj（t）δtXi∏C（j，i）xi（t）-Xikyk（t）∏C（k，i）xi（t）！，（S13）其中δt是积分步骤。收敛标准在图S3中，我们可以看到与模拟复制子动力学相关的技术问题。首先，因为只有严格的纳什均衡才是稳定的，所以所有稳定的固定点都位于概率单纯形的边界处，并且无法在模拟时间内达到。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-31 08:58:46

其次，周期的周期随着时间的推移而增加（由于复制因子方程的有限记忆），甚至不稳定的动力学也会向概率单纯形的边缘漂移。第三，虽然在Bush-Mosteller强化学习和实战游戏的情况下，混合策略向量的组成部分的变化幅度相对较小，但复制子动力学（S12）的函数形式意味着指数变化。因此，只能在有限的置信时间间隔内可靠地模拟map（S13）：一旦一个组件xior YJ达到机器精度极限，我们就停止模拟运行。这种预防措施是必要的，因为如果动态是在一个周期之后进行的，则某个动作可能不会在很长的时间间隔内进行，其概率会随着时间的推移而降低。在某种程度上，玩家可以方便地再次选择该动作，因此概率将再次开始增加。但是，如果概率事先达到计算机的精度极限，它将被固定在零，错误地将模拟运行识别为已达到固定点。另一个问题涉及舍入近似，这意味着归一化可能会丢失。如果发生这种情况，我们将停止模拟运行并丢弃结果。对于我们选择的集成步骤，确认时间间隔的平均顺序为1000个时间步骤（但可以有很大的变化，如图S3所示）。我们可以使用与Bush-Mosteller动力学和实战游戏相同的收敛标准，但由于模拟时间短以及周期的形状（在线性范围内，动力学在一段时间内保持不变，然后突然变化），建议使用不同的启发式。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-31 08:58:50

我们检查是否在最后20%的时间步中，两个玩家最常用的移动概率都是单调递增的，而所有其他概率都是单调递减的。换句话说1。只考虑最后20%的时间步。2、对于每个玩家，找到概率最高的移动，并验证该概率在整个时间间隔内是否一直在增加。3、检查所有其他移动的概率是否在降低。4、如果两个参与者都满足条件2-3，则将模拟运行确定为收敛。这些标准只是反映了我们在图S3中观察到的情况。虽然我们不能得出这样的结论，但对100多个模拟值的直接检查表明，在绝大多数情况下，收敛到纯策略纳什均衡或未能收敛是正确的。最后，我们想对复制器动力学与其他学习算法相比似乎更强的不稳定性补充一句警告。由于内存有限，并且取决于初始条件，可能需要很长时间才能“找到”纯策略纳什均衡，这意味着复制器动态可能会在仍处于“瞬态”时首先达到机器精度极限。换句话说，它可能不在由周期决定的吸引盆地中，但也可能在信任时间间隔内未达到纯策略纳什均衡。这对于大型Payoff矩阵尤其如此，N≥ 从图S3底部面板中的直线可以看出。我们使用Python包decimal对任意精度的数字进行了实验。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-5-31 08:58:53

这并不是很有帮助，因为随着模拟的进行，玩家切换到其他动作所需的时间会成倍增加。此外，它在计算上非常昂贵，因此一次具有任意精度数字的模拟运行的持续时间可能是具有浮点数的等效模拟运行的100倍以上。参数值我们通过选择δt=0.1的积分步长（足够小以防止概率单纯形边界的超调）和最大3000个时间步长的模拟时间来模拟复制器动力学。然而，如前所述，模拟时间通常较短，并由第一个到达机器精度边界的策略决定。S1.1.5经验加权吸引Camerer和Ho提出了经验加权吸引（EWA）[S16]，以推广强化和信念学习算法（如游戏或最佳回复动态）。关键的见解是，真正的玩家使用有关经验丰富的支付的信息，就像在强化学习中一样。但他们也会尝试预测对手的下一步行动，就像在信念学习（belieflearning）中一样。作者报告说，与简单的强化学习或游戏相比，实验样本外的拟合优度更好，这表明有证据支持他们的理论。强化和信念学习之间的联系在于更新未玩过的动作，即考虑已放弃的回报。如果只更新玩过的动作的概率，EWA将简化为强化学习的简单版本（而不是第S1.1.2节所述的Bush-Mosteller实现）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-31 08:58:56

如果所有概率都以相同的权重进行更新，则EWA将根据参数的不同，减少为实际播放或最佳回复动态。最后，请注意，EWA还通过限制某些参数（例如，通过限制有限内存）来降低复制因子的动态性。【S17】在EWA的正式定义中，混合策略是根据所谓的吸引力或倾向Qui（t）确定的。这些实数量化了玩家在t时对动作i的欣赏程度。吸引力没有标准化，因此玩家划船玩动作i的概率由logit给出，xi（t+1）=eβQRi（t+1）PjeβQRj（t+1），（S14），其中β是选项的支付敏感性或强度，类似的表达式适用于yj（t+1）。倾向更新如下：Qui（t+1）=（1- α） N（t）Qui（t）+（δ+（1- δ） I（I，su（t+1））∏u（I，s-u（t+1））N（t+1），（S15），其中N（t+1）=（1- α）（1）- κ） N（t）+1。（S16）这里，N（t）代表经验，因为它随所弹奏的圈数单调增加；它增长得越多，收到的回报对景点的影响就越小（随着分母的增加）。当使用移动i对抗移动s时，倾向会根据收到的支付而变化-其他参与者，即∏u（i，s-u（t+1））。如果I是uattime t+1播放的实际移动，则指示器函数I（I，su（t+1））等于1，即I=su（t+1），否则等于0。所有吸引力（与较大的β相对应的那些，玩家在决定策略时越考虑吸引力。在极限β中→ ∞球员们肯定会选择最吸引人的动作。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-31 08:59:00

在极限β内→ 0他们随机选择，无视景点。对于已经玩过和没有玩过的策略）更新为权重δ，而额外的权重1- δ表示与实际显示的移动相对应的特定吸引力。最后，记忆丧失参数α决定了之前的吸引力和经验被打折的速度，而参数κ在累积和平均强化学习之间插值[39]。与其他学习算法一样，我们采用确定性限制。在批量学习假设下，等式（S15）readsQRi（t+1）=（1- α） N（t）QRi（t）+（δ+（1- δ） xi（t））Pj∏R（i，j）yj（t）N（t+1），（S17）和类似表达式适用于列。400 425 450 475 5000.00.20.40.60.81.0400 425 450 475 50010281023101810131081030 200 4000.00.20.40.60.81.00 200 40010361029210221015108101TXI（t）图S4：N=20的经验加权景点模拟运行实例。每一行都是行的混合策略向量的一个组件（并非所有组件都可见，因为它们重叠）。左侧面板：非收敛模拟运行。已选择水平轴的范围以便于动力学的可视化。右面板：聚合模拟运行。顶部面板：线性比例。底部面板：垂直轴上的对数刻度。收敛标准考虑图S4，右侧面板。与其他学习算法不同，EWA动力系统的所有组件都达到一个固定点，因此更容易识别收敛性。我们运行了500个时间步的EWA动力学，并考虑了最后20%的时间步来确定收敛性。对于我们为α、β、κ和δ选择的参数值，瞬态通常为100个时间步，因此500个步骤足以识别收敛。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-31 08:59:03

然后，我们检查混合策略向量分量对数的平均方差是否超过某个（非常小）阈值。我们看对数是因为EWA动态之后的概率在指数尺度上变化，可以是，例如，10的数量级-100、在公式中，如果1/NPNi=15/TPTt=4/5T（对数xi（t））>10-2或1/NPNj=15/TPTt=4/5T（对数yj（t））>10-2，当T=500时，我们确定模拟运行为非收敛的。从计算角度来看，参数值EWA有两个主要优点。首先，如果记忆丢失参数为正（α>0），EWA系统的所有稳定吸引子都位于概率单纯形内。这意味着不会给任何移动赋予零概率或单位概率，并且可以在任意长的时间内可靠地模拟EWA映射，因为对于α的足够大的值，机器精度永远不会达到极限。这个属性的直觉很简单：非常成功或非常不成功的动作的表现会随着时间的推移呈指数级地被遗忘，因此即使是很小的α值也会提示玩家以正概率选择不成功的动作。第二个优点是，EWA系统在每一个时间步都被明确规范化，不太可能出现数值错误。EWA还有一个计算上的缺点：因为它使用指数函数将吸引力映射为概率，如果Payoff灵敏度β的值太大，混合策略向量的成分可能会变化太多数量级，因此会超出混合策略单纯形的边界。因此，在选择α和β值时应小心。这种情况也是因为EWA系统的另一个特点：记忆损失大或支付敏感性小，学习动态会收敛到策略单纯形的中心。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-31 08:59:06

在β=0的极限范围内，玩家只需在可能的移动之间均匀地随机选择，而不考虑支付矩阵。参考文献[25]中观察到，对于α/β的足够大的值，唯一的固定点总是稳定的。这样一个固定点可以任意远离混合策略均衡，因此通过改变他们的策略，玩家可以提高他们的报酬。我们对这个“琐碎”的吸引子不感兴趣，因为我们想关注支付矩阵的最佳重复结构对学习动态的影响。因此，我们选择α和β的参数值，以防止收敛到此固定点。最后一个重要的技术备注是，我们通过√当支付矩阵变大时。原因是预期的sPj∏R（i，j）yjandPi∏C（j，i）xiscale为1/√N、事实上，专注于玩家行的预期收益，Pj∏R（i，j）的规模为√N由于中心极限定理（回想一下，payoff是随机生成的，请参见下面的精确规则），而组件yj由于规格化约束而缩放为1/N。SoPj∏R（i，j）yjscales as 1/√N、同样的参数也适用于ExpectedPayoff of player列。现在，请注意β乘以等式的预期收益。（S14）和（S17）。因此，增大payoff矩阵的大小与减小β具有相同的效果，直到策略单纯形中心的吸引子再次变得稳定。为了防止这种情况发生，我们通过√N、因此，βPj∏R（i，j）yjandβPi∏C（j，i）xido不与N成比例。对于所有模拟，我们选择α=0.18，β=√N、 κ=1和δ=1，这确保了EWA动力学保持在概率单纯形内，不会超出单纯形边界，也不会到达单纯形中心的平凡吸引子。S1.1.6经验加权吸引与噪音到目前为止，我们假设批量学习。

扫码加我拉你入群

请注明：姓名-公司-职位

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群