全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-5-31 08:58:15
我们在五个案例中考虑了批量学习,但我们也研究了一个在线学习实例(带噪声的EWA),并表明结果对随机性具有鲁棒性。该代码可根据要求提供给相应的作者。除非我们选择一个参数设置,例如,在该参数设置中,所有学习动态都会收敛到与纳什均衡相差很远的固定点,而与支付矩阵无关。见下文。Conlisk[S2]在两个房间的实验中证明了这一假设:玩家在两个单独的房间里,需要在知道舞台游戏的结果之前进行多次对抗。布鲁姆菲尔德[S3]在一个实验装置中实现了这一想法。另一个重要的普遍观点是,我们检查收敛到固定点,但这些可能或可能不符合纳什均衡。例如,如果活动游戏收敛到固定点,则这是一个纳什均衡【S4】,但如上所述,记忆极短的EWA可能会收敛到任意远离纳什均衡的固定点。不幸的是,在有大量动作的游戏中,计算全套纳什均衡,然后检查与模拟固定点的距离在计算上是不可行的。在2×2博弈和EWA的特定情况下,具有足够长的记忆,固定点非常接近纳什均衡(例如,在10-6或更少)[S6]。由于EWA、带噪声的EWA、k级学习和强化学习的收敛频率与实际游戏和复制者动态(精确达到纳什均衡)非常相似(参见主要论文中的图2),我们认为固定点和纳什均衡之间缺乏完美对应不是主要问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:19
如果说有什么区别的话,那么收敛到纳什均衡的可能性将更大,这加强了我们论文的主要信息。S1.1.1注释考虑一个2人N步标准形式游戏。我们按u对玩家进行索引∈ {行=R,列=C}和它们的移动由i,j=1。N、 设xui(t)为玩家u在时间t玩移动i的概率,即其混合策略向量的第i个分量。为了简单起见,我们还用xi(t)表示玩家R在时间t玩招式i的概率,用yj(t)表示玩家C在时间t玩招式j的概率。我们进一步用su(t)表示玩家u在时间t实际执行的移动,用su(t)表示-对手采取的行动。玩家u的支付矩阵是∏u,如果他玩move i,而另一个玩家选择move j,则∏u(i,j)作为支付矩阵。因此,如果玩家行玩策略i和玩家列玩策略j,他们分别会收到支付函数∏R(i,j)和∏C(j,i)。S1.1.2强化学习作为强化学习的一个例子,我们使用参考文献中的规范研究了Bush-Mosteller学习算法[S7]。【S8】和【S9】。这不是强化学习的唯一可能选择。例如,Erev和Roth提出了其他算法【S10】。我们关注Bush-Mosteller算法,因为它是与我们考虑的其他算法最不同的学习规则。在Bush-Mosteller版本的强化学习中,每个玩家都有一定程度的灵感,即他的贴现平均薪酬。这会让玩家对每一步都感到满意——如果玩家因选择这一步而获得的回报大于激励水平,则为正,否则为负。如果满意度为正,则重复某个动作的概率会增加,如果满意度为负,则会降低。正式定义更正式地说,让Au(t)为时间t时玩家u的期望水平。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:22
Itevolves根据au(t+1)=(1- α) Au(t)+α∏u(su(t),s-u(t))。(S1)抽吸是在时间t∏u(su(t),s)时收到的付款的加权平均值-u(t)),和过去的吸入水平。因此,过去收到的付款按系数1贴现-α。此外,两种群复制子动力学的唯一稳定不动点是纯策略纳什均衡[S5]。相反,Erev Roth算法可被视为EWA的特例,见S1.1.5节。α表示记忆丧失率。满意度定义为σui(t)=∏u(i,s-u(t))- Au(t)最大值,j∏u(i,j)- Au(t)|。(S2)在时间t采取行动i后,如果玩家u收到的报酬高于他的期望,则他会有积极的满意度。请注意,α也被称为习惯化,因为玩家对动作i的重复选择u会导致期望水平与动作i的支付相对应。当玩家习惯化时,满意度将接近零。在式(S2)中,分母是将σ保持在-1和+1范围内的非均化因子。【S8】重新播放移动i的概率更新为asxui(t+1)=(xui(t)+βσui(t)(1- xui(t)),σui(t)>0,xui(t)+βσui(t)xui(t),σui(t)<0。(S3)在上述等式中,β是学习率。积极的满意度会导致可能性的增加(但习惯化会减缓并最终停止上升,因为习惯化会降低满意度),消极的满意度则会产生相反的效果。未执行的移动的概率将根据规范化条件进行更新。用j 6=i表示它们,我们有xuj(t+1)=xuj(t)- βσui(t)xuj(t),σui(t)>0,xuj(t)- βσui(t)xui(t)xuj(t)1-xui(t),σui(t)<0。(S4)到目前为止描述的学习算法是随机的。如前所述,我们希望采取确定性限制,即球员在更新混合策略之前,观察对手的大量动作样本。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:25
我们假设样本足够大,因此可以用混合策略向量进行识别。为了简单起见,我们切换到表示xRi(t)的符号≡ xi(t)和xCj(t)≡ yj(t)。我们也只考虑玩家行,因为列的learningalgorithm是等价的。吸气更新asAR(t+1)=(1- α) AR(t)+αXi,jxi(t)∏R(i,j)yj(t)。(S5)计算以正概率进行的所有动作i的满意度:σRi(t)=Pijxi(t)yj(t)∏R(i,j)- AR(t)最大值,j∏R(i,j)- AR(t)|。(S6)最后,根据概率xi(t),更新混合策略向量的所有组件,就像它们被播放一样,或者就像它们没有被播放一样。更新规则是xi(t+1)=xi(t)+xi(t)xi(t)+Xj6=ixj(t)xij(t)。(S7)此处,xi(t)是玩家行选择移动i的贡献(发生概率为xi(t),因此为乘法项),以及xij(t)是由于选择了另一个移动j(即规范化更新)而对移动i作出的贡献,每个移动都以概率xj(t)发生。以下等式:。(S3)和(S4),我们有xi(t)=(βσRi(t)(1- xi(t)),σRi(t)>0,βσRi(t)xi(t),σRi(t)<0,(S8)0 500 1000 1500 20000.000.250.500.751.000 500 1000 1500 20001081061021000 500 1000 1500 20000.000.250.500.751.000 500 1000 1500 2000106102100txi(t)图S1:N=20的Bush-Mosteller强化学习算法的模拟运行实例。每一行都是行的混合策略向量的一个组件(并非所有组件都可见,因为它们重叠)。左侧面板:非收敛模拟运行。右面板:聚合模拟运行。顶部面板:线性比例。底部面板:垂直轴上的对数刻度。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:29
仅显示5000个时间步长中的前2000个。和xij(t)=(-βσRj(t)xi(t),σRj(t)>0,-βσRj(t)xj(t)xi(t)1-xj(t),σRj(t)<0。(S9)收敛标准在图S1中,我们显示了收敛和非收敛模拟运行的实例。正如底部面板中的对数图所示,混合策略向量的任何组成部分都不会在模拟时间内达到固定点。原因很简单:Eqs。(S7)没有记忆丧失项,因此不成功策略的概率随着时间的推移不断降低。只有数值近似才会产生固定点,但在大多数参数设置下,Bush-Mosteller动力学需要很长时间才能达到机器精度边界。因此,我们选择一种简单的启发式方法来确定学习动态是否达到了一个固定点:1。只考虑最后20%的时间步。2、只保留使用频率大于1/N.3的动作。如果平均标准偏差(即最频繁移动的平均值)大于0.01,则将模拟运行确定为非收敛。否则,将其标识为收敛。我们用略有不同的规格进行试验,对结果没有显著影响。注意等式(S3)和等式(S9)之间的小符号杂波。在等式(S3)中,移动j是由于玩移动i而更新的。在等式(S9)中,移动i是由于玩移动j而更新的,概率为xj(t)。参数值如果抱负记忆损失α和/或学习率β非常小,则学习动态始终达到策略单纯形中心的固定点,而与支付矩阵无关。在这个固定点上,玩家只需在所有动作之间随机化。从某种意义上说,他们并没有从游戏中学习。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:33
除了这种不切实际的情况外,我们没有观察到对参数值的太多敏感性。我们在α=0.2和β=0.5的情况下进行了模拟。我们通过迭代等式来模拟学习动态。(S7)5000个时间步。S1.1.3虚拟游戏虚拟游戏最初是作为计算游戏纳什均衡的算法提出的,后来被解释为学习算法【S11,S4】。这是信仰学习的一个例子。与强化学习不同的是,在强化学习中,玩家更新他们对对手可能采取的行动的信念,并对他们的信念做出反应。在实际游戏中,每个玩家都会根据对手的经验分布来估计自己的混合策略,根据这个信念计算出自己动作的预期收益,并选择能够最大化预期收益的动作。在这里,我们研究了标准的实战游戏算法,在该算法中,玩家平均权衡所有过去的动作,并确定选择表现最好的动作。变型包括【S12】加权实战,玩家对对手过去的动作进行折扣,对最近的动作给予更高的权重;随机实战,玩家以一定的概率选择表现最好的动作,并可能以较小的概率选择所有其他动作。我们将重点放在标准的实际播放算法上,因为其他版本只是EWA的特例(见S1.1.5节)。正式定义玩家行计算时间T时预期混合策略列的第j个分量,我们用▄yj(T)表示,简单地说,是过去j被显示的次数的分数:▄yj(T)=PTt=1I(j,sC(T))T.(S10)在上述等式中,I(a,b)是指示函数,I(a,b)=1,如果a=b,I(a,b)=0,如果a=b。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:36
然后,玩家行选择在时间T,i(T)=argmaxkXj∏R(k,j)~yj(T)最大化预期收益的移动。(S11)柱的性能相当。收敛准则我们考察估计的混合策略向量在时间t、~xi(t)和~yj(t)上的收敛性。如图S2所示,游戏行为与Bush Mosteller dynamics非常相似。因此,我们使用相同的收敛标准。请注意,随着t的增加,更改预期策略需要越来越多的时间。在某种意义上,玩家的行为变得更加固定,因为他们需要更多的抽样证据来改变他们的期望。如果β太大,我们会遇到数值问题,因为学习动态超出了策略SimplexBounders。对于N=5,数值近似使动力学在2000个时间步后失去规范化。在这种情况下,我们只模拟2000个时间步。因为我们用随机系数来研究支付矩阵,所以几乎不可能两次移动产生相同的支付。如果是这样的话,通常玩家会以相同的概率在这些动作中进行选择。0 20000 400000.000.250.500.751.000 20000 400001041031021011000 20000 400000.000.250.500.751.000 20000 40000104103102101100txi(t)图S2:N=20的模拟游戏运行实例。每一行都是行的mixedstrategy向量的一个组件(并非所有组件都可见,因为它们重叠)。左面板:非收敛simulationrun。右面板:聚合模拟运行。顶部面板:线性比例。底部面板:垂直轴上的对数刻度。我们在这里展示了50000个时间步,尽管5000次迭代足以几乎同样准确地测量收敛率。参数值虚拟播放没有参数。我们只需要选择最大迭代次数,即5000次。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:39
我们尝试了更长的时间序列(50000个时间步),但精度和速度之间的权衡是不利的。S1.1.4复制子动力学复制子动力学【S13】是进化博弈论中使用的标准工具【S14】。它是一个典型的模型,代表了群体中具有某些特征的个体的进化。每个性状的适合度取决于其他性状的群体份额和平均适合度。虽然复制子动力学主要用于种群生物学,但它也被作为博弈论中的一种学习算法进行研究。关键的联系在于思想的普及[S15]。每一步都可以被视为一个特征,每个特征的种群份额的演化对应于混合策略向量各组成部分的动态。复制因子动力学最典型的形式只涉及一个种群。如果支付矩阵是对称的,则可以将博弈视为焦点玩家与其他人群之间的博弈。然而,考虑到一般和随机确定的两人博弈,支付矩阵通常是不对称的。这自然会导致两种群复制动力学。两种群算法的动力学特性不同于单种群算法。就我们的目的而言,最重要的区别在于单种群复制子动力学通常收敛于混合策略纳什均衡,其中,两个种群复制因子动力学仅收敛于严格的纳什均衡(即纯策略均衡,其中均衡的收益严格大于对手不改变其招式时可获得的任何其他收益)[10]。0 500 1000 15000.00.20.40.60.81.00 500 1500 101521012510981071104410170 200 4000.00.20.40.60.81.00 200 400 10781064105010361022108TXI(t)图S3:N=20的复制器动力学模拟运行实例。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:43
每一行都是行的混合策略向量的一个组件(并非所有组件都可见,因为它们重叠)。左侧面板:非收敛模拟运行。右面板:聚合模拟运行。顶部面板:线性比例。底部面板:垂直轴上的对数刻度。最大模拟时间(1500或500个时间步)由到达机器精度边界的混合策略向量的第一个分量内生确定。正式定义让xiand yjdenote分别与traitsi和j一起计算个体的种群份额,两个种群复制子动力学读数为˙xi(t)=xi(t)Xj∏R(i,j)yj(t)-Xkjxk(t)∏R(k,j)yj(t),˙yj(t)=yj(t)Xi∏C(j,i)Xi(t)-Xikyk(t)∏C(k,i)xi(t)!。(S12)与相应群体中的平均能力相比,群体行中的特征i和群体列中的特征j的份额根据该特征的能力(如预期收益所示)而变化【37】。复制器动力学需要离散化以进行模拟。我们使用欧拉离散xi(t+1)=xi(t)+xi(t)δtXj∏R(i,j)yj(t)-Xkjxk(t)∏R(k,j)yj(t),yj(t+1)=yj(t)+yj(t)δtXi∏C(j,i)xi(t)-Xikyk(t)∏C(k,i)xi(t)!,(S13)其中δt是积分步骤。收敛标准在图S3中,我们可以看到与模拟复制子动力学相关的技术问题。首先,因为只有严格的纳什均衡才是稳定的,所以所有稳定的固定点都位于概率单纯形的边界处,并且无法在模拟时间内达到。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:46
其次,周期的周期随着时间的推移而增加(由于复制因子方程的有限记忆),甚至不稳定的动力学也会向概率单纯形的边缘漂移。第三,虽然在Bush-Mosteller强化学习和实战游戏的情况下,混合策略向量的组成部分的变化幅度相对较小,但复制子动力学(S12)的函数形式意味着指数变化。因此,只能在有限的置信时间间隔内可靠地模拟map(S13):一旦一个组件xior YJ达到机器精度极限,我们就停止模拟运行。这种预防措施是必要的,因为如果动态是在一个周期之后进行的,则某个动作可能不会在很长的时间间隔内进行,其概率会随着时间的推移而降低。在某种程度上,玩家可以方便地再次选择该动作,因此概率将再次开始增加。但是,如果概率事先达到计算机的精度极限,它将被固定在零,错误地将模拟运行识别为已达到固定点。另一个问题涉及舍入近似,这意味着归一化可能会丢失。如果发生这种情况,我们将停止模拟运行并丢弃结果。对于我们选择的集成步骤,确认时间间隔的平均顺序为1000个时间步骤(但可以有很大的变化,如图S3所示)。我们可以使用与Bush-Mosteller动力学和实战游戏相同的收敛标准,但由于模拟时间短以及周期的形状(在线性范围内,动力学在一段时间内保持不变,然后突然变化),建议使用不同的启发式。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:50
我们检查是否在最后20%的时间步中,两个玩家最常用的移动概率都是单调递增的,而所有其他概率都是单调递减的。换句话说1。只考虑最后20%的时间步。2、对于每个玩家,找到概率最高的移动,并验证该概率在整个时间间隔内是否一直在增加。3、检查所有其他移动的概率是否在降低。4、如果两个参与者都满足条件2-3,则将模拟运行确定为收敛。这些标准只是反映了我们在图S3中观察到的情况。虽然我们不能得出这样的结论,但对100多个模拟值的直接检查表明,在绝大多数情况下,收敛到纯策略纳什均衡或未能收敛是正确的。最后,我们想对复制器动力学与其他学习算法相比似乎更强的不稳定性补充一句警告。由于内存有限,并且取决于初始条件,可能需要很长时间才能“找到”纯策略纳什均衡,这意味着复制器动态可能会在仍处于“瞬态”时首先达到机器精度极限。换句话说,它可能不在由周期决定的吸引盆地中,但也可能在信任时间间隔内未达到纯策略纳什均衡。这对于大型Payoff矩阵尤其如此,N≥ 从图S3底部面板中的直线可以看出。我们使用Python包decimal对任意精度的数字进行了实验。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:53
这并不是很有帮助,因为随着模拟的进行,玩家切换到其他动作所需的时间会成倍增加。此外,它在计算上非常昂贵,因此一次具有任意精度数字的模拟运行的持续时间可能是具有浮点数的等效模拟运行的100倍以上。参数值我们通过选择δt=0.1的积分步长(足够小以防止概率单纯形边界的超调)和最大3000个时间步长的模拟时间来模拟复制器动力学。然而,如前所述,模拟时间通常较短,并由第一个到达机器精度边界的策略决定。S1.1.5经验加权吸引Camerer和Ho提出了经验加权吸引(EWA)[S16],以推广强化和信念学习算法(如游戏或最佳回复动态)。关键的见解是,真正的玩家使用有关经验丰富的支付的信息,就像在强化学习中一样。但他们也会尝试预测对手的下一步行动,就像在信念学习(belieflearning)中一样。作者报告说,与简单的强化学习或游戏相比,实验样本外的拟合优度更好,这表明有证据支持他们的理论。强化和信念学习之间的联系在于更新未玩过的动作,即考虑已放弃的回报。如果只更新玩过的动作的概率,EWA将简化为强化学习的简单版本(而不是第S1.1.2节所述的Bush-Mosteller实现)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:58:56
如果所有概率都以相同的权重进行更新,则EWA将根据参数的不同,减少为实际播放或最佳回复动态。最后,请注意,EWA还通过限制某些参数(例如,通过限制有限内存)来降低复制因子的动态性。【S17】在EWA的正式定义中,混合策略是根据所谓的吸引力或倾向Qui(t)确定的。这些实数量化了玩家在t时对动作i的欣赏程度。吸引力没有标准化,因此玩家划船玩动作i的概率由logit给出,xi(t+1)=eβQRi(t+1)PjeβQRj(t+1),(S14),其中β是选项的支付敏感性或强度,类似的表达式适用于yj(t+1)。倾向更新如下:Qui(t+1)=(1- α) N(t)Qui(t)+(δ+(1- δ) I(I,su(t+1))∏u(I,s-u(t+1))N(t+1),(S15),其中N(t+1)=(1- α) (1)- κ) N(t)+1。(S16)这里,N(t)代表经验,因为它随所弹奏的圈数单调增加;它增长得越多,收到的回报对景点的影响就越小(随着分母的增加)。当使用移动i对抗移动s时,倾向会根据收到的支付而变化-其他参与者,即∏u(i,s-u(t+1))。如果I是uattime t+1播放的实际移动,则指示器函数I(I,su(t+1))等于1,即I=su(t+1),否则等于0。所有吸引力(与较大的β相对应的那些,玩家在决定策略时越考虑吸引力。在极限β中→ ∞球员们肯定会选择最吸引人的动作。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:00
在极限β内→ 0他们随机选择,无视景点。对于已经玩过和没有玩过的策略)更新为权重δ,而额外的权重1- δ表示与实际显示的移动相对应的特定吸引力。最后,记忆丧失参数α决定了之前的吸引力和经验被打折的速度,而参数κ在累积和平均强化学习之间插值[39]。与其他学习算法一样,我们采用确定性限制。在批量学习假设下,等式(S15)readsQRi(t+1)=(1- α) N(t)QRi(t)+(δ+(1- δ) xi(t))Pj∏R(i,j)yj(t)N(t+1),(S17)和类似表达式适用于列。400 425 450 475 5000.00.20.40.60.81.0400 425 450 475 50010281023101810131081030 200 4000.00.20.40.60.81.00 200 40010361029210221015108101TXI(t)图S4:N=20的经验加权景点模拟运行实例。每一行都是行的混合策略向量的一个组件(并非所有组件都可见,因为它们重叠)。左侧面板:非收敛模拟运行。已选择水平轴的范围以便于动力学的可视化。右面板:聚合模拟运行。顶部面板:线性比例。底部面板:垂直轴上的对数刻度。收敛标准考虑图S4,右侧面板。与其他学习算法不同,EWA动力系统的所有组件都达到一个固定点,因此更容易识别收敛性。我们运行了500个时间步的EWA动力学,并考虑了最后20%的时间步来确定收敛性。对于我们为α、β、κ和δ选择的参数值,瞬态通常为100个时间步,因此500个步骤足以识别收敛。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:03
然后,我们检查混合策略向量分量对数的平均方差是否超过某个(非常小)阈值。我们看对数是因为EWA动态之后的概率在指数尺度上变化,可以是,例如,10的数量级-100、在公式中,如果1/NPNi=15/TPTt=4/5T(对数xi(t))>10-2或1/NPNj=15/TPTt=4/5T(对数yj(t))>10-2,当T=500时,我们确定模拟运行为非收敛的。从计算角度来看,参数值EWA有两个主要优点。首先,如果记忆丢失参数为正(α>0),EWA系统的所有稳定吸引子都位于概率单纯形内。这意味着不会给任何移动赋予零概率或单位概率,并且可以在任意长的时间内可靠地模拟EWA映射,因为对于α的足够大的值,机器精度永远不会达到极限。这个属性的直觉很简单:非常成功或非常不成功的动作的表现会随着时间的推移呈指数级地被遗忘,因此即使是很小的α值也会提示玩家以正概率选择不成功的动作。第二个优点是,EWA系统在每一个时间步都被明确规范化,不太可能出现数值错误。EWA还有一个计算上的缺点:因为它使用指数函数将吸引力映射为概率,如果Payoff灵敏度β的值太大,混合策略向量的成分可能会变化太多数量级,因此会超出混合策略单纯形的边界。因此,在选择α和β值时应小心。这种情况也是因为EWA系统的另一个特点:记忆损失大或支付敏感性小,学习动态会收敛到策略单纯形的中心。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:06
在β=0的极限范围内,玩家只需在可能的移动之间均匀地随机选择,而不考虑支付矩阵。参考文献[25]中观察到,对于α/β的足够大的值,唯一的固定点总是稳定的。这样一个固定点可以任意远离混合策略均衡,因此通过改变他们的策略,玩家可以提高他们的报酬。我们对这个“琐碎”的吸引子不感兴趣,因为我们想关注支付矩阵的最佳重复结构对学习动态的影响。因此,我们选择α和β的参数值,以防止收敛到此固定点。最后一个重要的技术备注是,我们通过√当支付矩阵变大时。原因是预期的sPj∏R(i,j)yjandPi∏C(j,i)xiscale为1/√N、 事实上,专注于玩家行的预期收益,Pj∏R(i,j)的规模为√N由于中心极限定理(回想一下,payoff是随机生成的,请参见下面的精确规则),而组件yj由于规格化约束而缩放为1/N。SoPj∏R(i,j)yjscales as 1/√N、 同样的参数也适用于ExpectedPayoff of player列。现在,请注意β乘以等式的预期收益。(S14)和(S17)。因此,增大payoff矩阵的大小与减小β具有相同的效果,直到策略单纯形中心的吸引子再次变得稳定。为了防止这种情况发生,我们通过√N、 因此,βPj∏R(i,j)yjandβPi∏C(j,i)xido不与N成比例。对于所有模拟,我们选择α=0.18,β=√N、 κ=1和δ=1,这确保了EWA动力学保持在概率单纯形内,不会超出单纯形边界,也不会到达单纯形中心的平凡吸引子。S1.1.6经验加权吸引与噪音到目前为止,我们假设批量学习。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:09
在这里,我们考虑在线学习,即玩家在观察对手的单个动作后更新其混合策略。玩家根据混合策略向量给出的概率选择移动。我们关注EWA,因为它具有优越的数值特性(与其他算法相比)。考虑到引入噪声使得识别收敛性更具挑战性,我们选择了识别收敛性最简单的算法。含噪声的形式定义EWA仅由等式给出。(S14)、(S15)和(S16)。在时间t,玩家行选择移动i的概率为xi(t),玩家列选择移动j的概率为yj(t)。0 50 100 150 2000.00.20.40.60.81.00 50 100 150 2000.00.20.40.60.81.00 1000 2000 3000 4000 50000.00.20.40.60.81.00 1000 2000 3000 4000 50000.00.20.40.60.81.0txi(t)图S5:噪声为N=20的EWA和EWA模拟运行实例。每一行都是行的混合策略向量的一个组件(并非所有组件都可见,因为它们重叠)。左侧面板:非收敛模拟运行。右面板:聚合模拟运行。顶部面板:EWA的确定性近似。底部面板:有噪音的EWA。收敛标准如图S5所示,EWA的确定性近似值和噪声版本通常非常相似。在收敛示例中,会不时选择一个不是最常用的移动(即浅绿线),这可能会使玩家的行偏离平衡。取而代之的通常情况是,玩家在短时间后恢复平衡。我们使用以下收敛启发式:1。只考虑最后20%的时间步。2、只保留使用频率大于1/N.3的动作。找出最常见的概率值,即固定点。4.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:14
计算概率与MOSTCOMON值相差大于0.02的事件。如果发生次数超过所考虑时间间隔的10%,则将模拟运行确定为非收敛。否则,将其标识为收敛。参数值不同于确定性EWA的情况,我们需要考虑一个较长的时间间隔,以便动力学稳定为吸引子。对于Bush Mosteller dynamics和Fictive play,我们最多需要5000次迭代。参数值相同,只是选择的强度不同:我们取β=√第2页。我们减少选择强度的原因是β=√N导致动力学过于接近策略单纯形的边界,噪声几乎消失。事实上,如果主导策略是以概率进行的,例如xi(t)=0.99995,则偏离均衡的可能性极低,并且是确定性的情况。S1.1.7 k级学习我们将k级学习称为预期学习的推广(Selten[S18]提出)。塞尔滕认为,player Row不相信该专栏会像过去那样行事。相反,他试图通过最好地回应他认为她将在下一个时间段采取的策略来智胜她。Row需要对她的策略进行预测,并通过假设Column是一名EWA学习者来获得该预测。这个想法可以通过假设玩家可以提前思考k步来推广【S19,S20】。在k级思维中【S21、S22】k级玩家假设其他玩家都是k级玩家- 1,该过程将迭代到级别1。一级玩家随机选择。二级玩家知道一级玩家随机选择,并根据这条信息选择产生最高回报的策略。三级玩家知道二级玩家的行为,并做出相应的反应,等等。在我们的案例中,1级玩家是EWA学习者。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:18
二级玩家知道一级玩家使用电子战更新他们的策略,并试图通过先发制人来获得更好的回报。三级玩家将知道二级玩家如何选择策略,并选择可能的最佳策略作为回应。在这里,我们将假设两个参与者都是2级,因为我们没有发现k值越大的实质性差异(这很快就会变得行为不稳定)。形式定义为方便起见,我们结合了等式。(S14)和(S17):xi(t+1)=xi(t)(1-α) N(t)/N(t+1)expβ(δ+(1- δ) xi(t))Pj∏R(i,j)yj(t)/N(t+1)Zx(t+1),(S18)带Zx(t+1)=Plxl(t)(1-α) N(t)/N(t+1)expβ(δ+(1- δ) xl(t))Pj∏R(l,j)yj(t)/N(t+1).我们使用上标1表示玩家行是1级(即EWA)学习者。类似的表达式适用于列。我们用F(y(t))表示等式(S18)中的右侧,其中y(t)=(y(t)。yN(t))。所以,xi(t+1)=F(y(t))。玩家行基于列的过去混合策略向量进行学习。Wede fineyj(t+1)=F(x(t+1))。(S19)此处列为二级玩家,因为她认为Row是一级玩家,因此使用等式(S18)更新其策略。通常,ykj(t+1)=F(xk-1(t+1))。(S20)收敛准则动力学在性质上与EWA非常相似,因此我们使用相同的收敛准则。参数值我们也使用相同的参数值。行和列都是level-2players。S1.2 Payoff矩阵的初始化为了研究一般Payoff矩阵,我们通过随机生成Payoff元素对所有可能Payoff矩阵的空间进行采样。以下参考。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:21
【25】在初始化时,我们随机生成Payoff s的NPAIR(即,如果行播放i,列播放j,则a、b对表示行播放a,列播放b),我们在其余模拟中保持Payoff矩阵固定(因此Payoff矩阵描述的系统可以视为已淬灭)。我们考虑Payoff矩阵的一个集合,该集合受对的均值、方差和相关性的约束。服从这些约束条件的最大熵分布是一个二元高斯分布[25],我们用零均值、单位方差和相关性Γ对其进行参数化。因此,Γ<0意味着博弈是竞争性的(在Γ=-1) ,而Γ>0鼓励合作(见正文)。如果Γ=0,则所有最佳回复配置都是等概率的,因为支付是独立随机选择的,因此我们应将其视为基准情况,在这种情况下,我们以相同的概率抽样所有可能博弈的空间。主要论文的图2:我们从每个Payoff矩阵的100个随机初始条件开始,随机生成1000个Payoff矩阵,其中Γ=0,n=20。图3:我们从每个Payoff矩阵的10个随机初始条件开始,随机生成180个Payoff矩阵,其中Γ=0,移动次数如下:N={2,3,4,5,8,10,15,20,30,50,100,200,400}。我们明智地减少了每个N值的模拟运行次数,因为随机生成payoff矩阵、识别最佳回复结构和模拟动态都是N的耗时工作≥ 50.主要论文的图3,底部面板:与顶部面板相同,但我们考虑相关性Γ={-1.0,-0.9,-0.8,0.0,0.1,0.9、1.0},且每个Γ值仅为50个Payoff矩阵。正文图4:同图。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:24
3,顶板。S2补充数值结果0.00.20.40.60.81.0R2w=0.94钢筋学习R2w=0.76虚拟铺层R2w=0.98复制动态0.0 0.2 0.4 0.6 0.8 1.00.20.40.60.81.0R2w=0.98EWA0.0.2 0.4 0.6 0.8 1.0R2w=0.92EWA,噪声0.0 0 0.2 0.4 0.6 0.6 0.8 1.0R2w=0.94Level-kR2w=1.0 W=0.41 R2w=1.0R2w=1.0 R2w=0.92 R2w=0.41最佳回复周期的份额F(v)非收敛动态图S6:与主要论文的图2,但N=5而不是N=20.0.00.20.40.60.81.0R2w=0.68钢筋学习R2w=0.63虚拟铺层R2w=0.72复制动态0.0 0 0.2 0.4 0.6 0.8 1.00.20.40.60.81.0R2w=0.76EWA0.0.2 0.4 0.6 0.8 1.0R2w=0.53EWA,噪声0.0 0 0.2 0.4 0.6 0.8 1.0R2w=0.74Level-KR22W W=0.98 R2w=0.69 R2w=0.93R2w=0.96 R2w=0.99 R2w=0.96最佳回复周期的份额F(v)非收敛动态图S7:相同如主文件的图2所示,但N=50而不是N=20。在本节中,我们首先对主要论文中的数值结果进行一些稳健性测试。然后,我们给出了一些关于学习算法的异质性以及布尔和非布尔payoff矩阵之间的相关性的其他结果。对于与稳健性测试相关的内容,一旦我们考虑不同的移动次数N,我们将检查是否得到与主要论文图2相同的结果。如图6和S7所示,总体模式相似,但存在一些差异。我们正在绘制最佳回复动态不收敛的分数,如最佳回复周期F(v)在水平轴上的相对份额所示。我们所考虑的六种学习算法的非收敛模拟运行部分位于纵轴上。当N=5时,相关性比N=20时更强,在非布尔Payoff矩阵中,加权相关系数的值甚至大于0.9。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:27
我们推测,这是由于作为周期和固定点一部分的移动比例较高。实际上,对于N=5,最常见的具有周期的最佳回复向量是v=(0,0,0,1,0),因此作为周期一部分的移动是2/5。另一方面,在2周期且n=20的最佳回复向量中,属于该周期一部分的移动为2/20,因此非最佳回复的支付更为重要,而准最佳回复的问题更为严重。一个有趣的细节是,k级学习在大多数情况下都会收敛。对单个模拟运行的检查表明,通过预测对手的动作,玩家不太可能陷入周期性循环,而是收敛到混合策略均衡。对于N=50,我们观察到与N=5相反的模式:相关性变得更大(但在大多数情况下仍大于0.6)。这种影响最有可能是由作为周期或固定点的一部分的少量移动引起的(最常见的最佳回复向量isv=(0,…0,1,1),仅涉及3/50的移动)。准最佳回复可能发挥着更重要的作用。然而,我们不能排除测量误差。在图S8中,我们展示了我们所考虑的六种学习算法的共现收敛性的相关矩阵。对于N=20的1000个Payoff矩阵中的每一个,以及每个学习算法,我们计算不收敛的频率。因此,我们有六个1000个分量的向量,我们考虑了BMFPrDewaewanlevelKBMFPrDewaewanlevelK0.40.50.60.70.80.91.0图S8:在Bush-Mosteller(BM)学习、虚拟游戏(FP)、复制器动力学(RD)、经验加权吸引(EWA)的1000个支付矩阵中,任何一个矩阵中不收敛的共现相关矩阵,带噪声的EWA(EWAN)和k级学习(LEVELK)。他们
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:30
完美的相关性意味着对于每个Payoff矩阵,非收敛速度是不同的。我们发现,三种最相关的算法是复制子动力学、经验加权吸引(EWA)和k级学习。最不相关的两种算法是“实际播放”和“带噪声的EWA”。相关性范围在0.35和0.85之间,表明这六种算法之间存在较强的异质性。最后,在表S1中,我们展示了布尔型和非布尔型Payoff矩阵中收敛的共现性之间的相关性。与之前一样,我们考虑1000个分量的向量,其中每个分量是特定Payoff矩阵中不收敛的频率。相关关系是通过参考布尔和非布尔Payoff矩阵的向量之间的成对比较获得的。由于布尔支付矩阵被构造为与非布尔对应矩阵具有相同的最佳回复结构,因此缺乏完美的相关性是由于支付矩阵的细节。有趣的是,在游戏中,相关性非常低,而在复制动态和EWA中,相关性相对较高。BM FP RD EWA EWAN LEVELK平均值0.49 0.35 0.65 0.61 0.46 0.52 0.51表S1:对于我们考虑的六种学习算法,布尔和非布尔payoff矩阵中非收敛的共现之间的相关性。S3分析计算的详细信息首先,我们提供了最佳回复向量频率表达式的彻底推导,并在一些示例中使用它。其次,我们获得了量化任何给定长度的至少一个周期(包括固定点,即长度为1的周期)的Payoff矩阵的分形的其他表达式,并使用这些方程来确定没有执行点或至少一个周期的Payoff矩阵的份额。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:34
第三,我们推导了有限维Payoff矩阵中循环频率和固定点的渐近估计。S3.1最佳回复向量的频率首先讨论形成最佳回复动态的k周期和固定点的方式的计数,然后我们计算放置免费最佳回复的方式(即不属于其他周期或固定点的方式)。最后,我们展示了如何将这些数字组合在一起,以获得对应于特定吸引子集的最佳回复配置数。1 2 3sC123sR1,0 0,0 0,10,0 0,1 1,00,1,0 0,0123sR公司123sC1 2 3sC123sR1,0 0,1 0,00,0 1,0,10,1 0,0 1,0123sR公司123sC1 2 3sC123sR0,0 1,0 0,11,0 0,1 0,00,1 0,0 1,0123sR公司123sC1 2 3sC123sR0,1 0,0 1,00,0 1,0 0,11,0 0,1 0,0123sR公司123sC1 2 3sC123sR0,1 1,0 0,00,0 0,1,01,0 0,0,1123sR公司123sC1 2 3sC123sR0,0 0,1 1,00,1 1,0 0,01,0 0,0,1123sR公司123sC1 2 3sC123sR1,0 0,0,10,1 1,0,00,0,1 1,0123sR公司123sC1 2 3sC123sR1,0 0,1 0,00,1 0,0 1,00,0 1,0 0,1123sR公司123sC1 2 3sC123sR0,0 1,0 0,10,1 0,0 1,01,0 0,1 0,0123sR公司123sC1 2 3sC123sR0,1 0,0 1,01,0 0,1 0,00,0 1,0 0,1123sR公司123sC1 2 3sC123sR0,1 1,0 0,01,0 0,0,10,0 0,1 1,0123sR公司123sC1 2 3sC123sR0,0 0,1 1,01,0 0,0,10,1 1,0 0,0123sR公司123sCFigure S9:所有可能的3!2!=12种方式组合每个玩家3个动作,形成3个循环。颜色代码与正文一致。(1,2,3)垂直数组包含移动标签,箭头表示最佳回复。一个周期是最佳回复的闭环。这12种组合也是最好的重复配置,其特点是在N=3的支付矩阵中具有3个周期。使用公式(S21),f(3,3)=12。我们通过示例开始k-循环的计数。在图S9中,我们详尽地报告了在N=3的Payoff矩阵中形成3个循环的所有可能途径。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:37
垂直(1、2、3)数组和箭头连接着动作的标签,说明了主要的直觉:我们找到了所有可能的最佳回复序列,形成了一个闭环。我们任意地从sR=1开始(因为这是一个循环,起始点无关紧要),我们查看最佳的玩家回复列sC∈ {1,2,3},我们将sR=1与sC连接起来。在左上方的面板中,我们将sR=1与sC=3连接起来。可通过k=3种方式进行选择。一旦我们按列确定了第一个最佳回复,我们将通过按行选择第二个最佳回复来继续构建循环。第二个选项只能在k中完成- 1=2路。在左上方的面板中,我们将sC=3连接到sR=2。然后,按列选择第二个最佳回复。同样,我们有k- 1=2种可能性。在左上角的面板中,我们将sR=2连接到sC=2。行和列的第三个也是最后一个最佳回复受到限制,只有一个(k-2=1)选择剩余BR的方式。在左上面板中,我们将sC=2连接到sR=3,并将sR=3连接到sC=1。我们有3·2·2·1·1=12种方式来形成3个周期,其中n=3个可用动作。回想一下,n表示每个玩家尚未成为周期或固定点一部分的移动次数。通常,n可能小于n,但在图S9中,所有移动都是循环的一部分,因此n=n=k=3。我们有可能将这个论点推广并得出结论,即存在k!(k)- 1) 哦!形成k循环的方法,一旦我们确定涉及玩家的行和列的移动。n中的任意移动都可以选择(由两个玩家选择),因此nk公司可能性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:41
我们定义(n,k)=nk公司k(k)- 1) !,(S21)带2≤ k≤ n、 作为每个玩家有n个可用移动的k循环的方法计数。在上述示例中,f(3,3)=12.1 2 3sC123sR1,1 0,0,00,0 1,1 0,00,0 0,0 1,11 2 3sC123sR0,0 0,0 1,10,0 1,1 0,01,1 0,0,0,01 2 3sC123sR1,1 0,0,0,0 1,0 1,0,1 0,0,01 2 3sC123sR0,0 1,1 0,0,0 1,11,1 0,0,0,0,01 2 3sC123sR0,0,1,0,0 1 0,0 0,00,0 0,0 1,11 2 3sC123sR0,0 0,0 1,11,1 0,0 0,0 0,00,0 1,0,0图S10:所有可能的3!=6种方式组合每个玩家3个动作,形成3个固定点。颜色代码与正文保持一致。请注意,这些都是最佳回复配置,在N=3的支付矩阵中有3个百分点。使用公式(S21),f(3,1)f(2,1)f(1,1)=9=6。现在,我们来看一下形成固定点的方法,我们再次从示例开始。在图S10中,我们报告了在N=3的支付矩阵中形成3个固定点的所有可能方法。一旦我们确定哪些动作是固定点的一部分(在这种情况下是全部),我们就可以通过从两个层的可用动作列表中挑选成对的动作来形成所有可能的固定点组合。为了方便起见,我们再次从sR=1开始。我们通过选择anymove sC形成固定点∈ {1,2,3},因此sR、sC是一个固定点。在左侧面板中,我们选择(1,1)作为第一个固定点。然后我们考虑sR=2。playerColumn只有两个动作可以构成第二个固定点。在左面板中,(2,2)是第二个固定点。最后,对于sR=3,只有一个move by Column可用。通过消除过程,左面板(3,3)中是第三个也是最后一个固定点。该示例说明,固定点数量的计算与循环的情况非常相似,实际上,固定点只是长度为1的循环。为了获得形成固定点的方法的数量,我们可以迭代地应用等式(S21),并考虑二元、三元等。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:44
定点计数。我们得到nyj=1f(n+1- j、 1)j(S22)作为每个玩家有n个可用移动的n个固定点的方法计数。在上述示例中,f(3,1)f(3,2)f(3,3)=9=6.1 2 3sC123sR1,0,1 0,00,1 1,0 1,00,0 0,0,11 2 3sC123sR1,0,1 0,00,1,0 1,00,0 0,1 0,01 2 3sC123sR1,0,1 1,00,1 1,0,0,0,0,1 0,0,0,1 2 3sC123sR1,0,1,00,1 1,0,0,0,0,0,0,0,1 2 3sC123sR1,0,1 0,00,1,0,00,0,1,1,01 2 3sC123sR1,0,1 0,00,1 1,0,00,1 0,0 1,01 2 3sC123sR1,0,1 1,00,1,0,0,00,1 0,0,0,01 2 3sC123sR1,0,1 0,00,1,0,0,0图S11:所有可能的3- 1=选择其余两个最佳回复的8种方式,以便它们不会在(3,3)处形成固定点。色码与正文保持一致。使用公式(S23),g(1,0)=8。我们最终会计算放置免费最佳回复的方式,这些回复不属于其他周期或固定点的一部分。我们再次从示例开始。在图S11中,我们显示了每个玩家有一个免费最佳回复的支付矩阵。在左上角的面板中,行到列playingsC=3的最佳回复是sR=2;列对行播放sR=3的最佳回复是sC=3。免费的最佳回复可以自由选择,除非它们都是移动3,在这种情况下,它们将形成另一个固定点。本例中有3个- 1=选择免费最佳答案的8种方式,这样它们就不会形成其他周期或固定点。一般来说,gN(n,d)=N2n-nXk=1f(n,k)gN(n- k、 d+1)/(d+1)(S23)统计所有可能的方式,将n个免费的最佳回复组合在一个n×n支付矩阵中,以便它们不会形成其他周期或固定点。我们在本节末尾提供了公式(S23)的更完整示例。注意,N是一个参数,因此表示为一个下标,而len是一个递归变量:即使可用移动数N小于N,也可以从所有N个移动中选择N2nways中的任意最佳回复(见图S11)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:47
第二项统计“禁止”组合,即形成循环或固定点的组合。该术语具有递归结构。它计算形成每种类型吸引子的方法的数量,然后计算不具有其他吸引子的方法的数量。d表示递归深度。为了防止吸引子的二倍、三倍等计数,需要用d+1来划分。现在,我们结合所有获得周期、固定点和免费最佳回复的方法来计算与通用最佳回复向量v=(nN,nN)相对应的最佳回复配置数-1.nk。。。n、 n)。我们用n固定点的数量表示,用n表示,用2表示≤k≤ N、 k循环数。当然,v必须服从一个明显的约束,即固定点和k循环不会占用超过N个移动:PNk=1nkk≤ N、 最佳频率1 2 3 4 5 6 7 8 9 10 11sC1234567891011sR3,-10 3,14-20,2-2,11 0,3-9,11-24,3 3,8 0,1-2,0-5,-1-7,6 7,0-2,-1-7,-7-8,-1-3,-4,-2-5,3-10,1-2,-2-12,-92,-3 1,-17-3,2-10,0,0,-7 4,0-4,0-1,-4-10,-4-5,-5,-5 9 3,-11-2,4 0,2 8,-10 6,2-3,-9 0,2-13,-5-1,0-2,1 6,10-6,-3-5,0 1,-6 6 6,19-7,-6 2,7-17,4-1,7-18,0-4,-15 6,-7 2,1-3,-9-4,2 7,-11 8,-10-3,-4-3,-1-12,-7-14,01,11-6,-6-6,9-21,5-11,8 10,-4-8,13 0,4-2,6-22,4-7,01,-2,-8 2,-6-1,-11-3,-5-7,-9-1,-18 1,0,-5 1,-1-8,3 5,-4-7,1-7,-7,-4-4,2-3,4-25,0-1,7-13,-1-16,0,1 1,-7-2,-5 5,-12-5,1 0,0-1,0-2,-3 4,-7-5,-8 1,-2 0,1 1,-6,0 0,-1-4,-3 2,2-2,1图S12:N=11的支付矩阵。色码与正文保持一致。Payoff矩阵中最佳回复动态的吸引子集为v=(0,0,0,0,0,0,1,2,2),如果k>3,则n=1,n=2,n=2和nk=0。isPk=1nkk=9<11。回复向量v为ρ(v)=NYk=1nkYj=1fN-PNl=k+1nll- (j)-1) k,kjgNN公司-NXl=2NL- n、 0!,N2N.(S24)等式(S24)是等式。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:50
(3) 在主要论文中。带f的第一项通过乘以k(第一乘积)的所有值和k(第二乘积)的特定值的所有k循环计数,计算所有k循环的方式。请注意,随着越来越多的移动成为k周期的一部分,我们逐渐减少了可形成k周期的移动次数(请参见下文中阐明这一点的示例)。如果有多个k-循环,nk>1,我们将计数除以j=1。。。nkso避免双重、三重等计数。k=1的情况占到了满分。第二项GN计算选择剩余N的所有方法-PNl=2nll-nfreebest回复。三项的乘积给出了对应于最佳回复向量v的最佳回复配置数。我们将该数除以可能的配置sn2n,得到频率ρ(v)。例如,我们使用图S12所示的同一组描述符计算最佳回复配置的数量。我们开始计算形成3个周期的方式。我们可以从11个动作中选择任何3个动作,让两名球员都成为3个周期的一部分,这意味着可能性。一旦我们为每个玩家选择了3个动作,我们可以通过选择3为每个选择获得12个循环!2!=12个动作序列。所以形成3-圈的方法是f(11,3)。同样的原因也适用于两个2周期,除了每个玩家只有8个和6个动作可用,并且2周期的方法数需要除以2,以避免重复计算。所以我们用f(11,3)乘以f(8,2)f(6,2)/2。剩余4个动作中有2个固定点的最佳回复配置的数量可以类似地计算:每个层可以从4个动作中选择第一个固定点,从3个动作中选择第二个固定点,但我们必须考虑重复计算。因此,f(4,1)f(3,1)/2给出了在剩下的4个动作中形成两个固定点的方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 08:59:54
我们每个球员只有2个动作,不属于周期或分数的一部分。有11种方法可以选择免费的最佳回复,但我们必须排除那些会形成另一个2周期或一个或多个固定点的情况。有2种方式可以形成2个循环(f(2,2)),有4种方式可以形成1个固定点(f(2,1))。但对于后者,我们必须考虑所有兼容的配置,即计算g(1,1):有多种方法可以选择免费的最佳回复,减去此选择将形成另一个固定点的方式(除以2,以说明有两个固定点的情况)。总之,最佳回复配置数由ρ(0,0,0,0,0,0,0,1,2,2)=f(11,3)f(8,2)f(6,2)f(4,1)f(3,1)g(2,0)/(11),(S25)和f(11,3)=3·2·2,f(8,2)=2,f(6,2)=2,f(4,1)=1,f(3,1)=g(2,0)=11- 2.- 4·g(1,1),g(1,1)=11- 1/2。频率的显式计算得出ρ(0,0,0,0,0,0,0,0,0,0,1,2,2)=1.44·10-6,因此图S12中的最佳回复向量非常罕见。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群