全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-5-31 08:59:57
对于N=11,最常见的最佳回复因子是:ρ(0,0,0,0,0,0,0,0,0,0,0,1)=0.17,ρ(0,0,0,0,0,0,0,0,0,0,0,2)=0.14,ρ(0,0,0,0,0,0,0,1,0)=0.14,ρ(0,0,0,0,0,0,0,0,0,1,1)=0.13,ρ(0,0,0,0,0,0,0,0,0,0,0,1,1)=0.13,1,0,0)=0.09。(S26)对于N=20,最常见的最佳回复向量是:ρ(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1)=0.10,ρ(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1)=0.10,ρ(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2)=0.09,ρ(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0)=0.09,ρ(0、0、0、0、0、0、0、0、0、0、0、0、0、0、0、0、0、0、1、0、0)=0.07。(S27)我们观察到,k值高的k循环从来都不是很频繁;任何特定的最佳回复向量的频率随着N的增加而减少(因为有更多的最佳回复向量具有正频率);随着N的增加,具有周期的最佳回复向量变得更加频繁,这与主要论文的图4一致。请注意,最常见的最佳回复向量的准确数值估计可能很有挑战性,因为最佳回复配置的数量非常多:分析结果可以获得准确的估计。S3.2周期频率和固定点迄今为止,我们提供了一个分析表达式来计算特定最佳回复向量的频率。在本节中,我们获得了至少具有一个固定点或任何特定长度的一个周期的Payoff矩阵的频率方程,以及至少具有任何长度的一个周期的Payoff矩阵的频率方程。这些表达式很有用,因为计算所有最佳回复向量的频率,然后考虑集合平均值,在计算上非常昂贵。的确,在图。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 09:00:00
在主要论文的第4章中,在最佳回复动态下,非收敛频率的分析线(中间绿线,FN)在n=50时停止。相反,至少有一个周期(顶部蓝线,F(v)>0)且无固定点(底部红线,F(v)=1)的Payoff矩阵分数的分析线持续到N=400。这是因为,要计算中间行,我们需要明确计算所有最佳回复向量的频率,而要计算顶行和底行,我们需要使用本节中推导的表达式。定义(n,k,d)=f(n,k)N2(n-k)-hN(n- k、 k,d+1)d+2. (S28)Hn计算在递归深度d处,N×N payoff矩阵中至少有一个k循环的配置数量,其中N个移动尚未属于其他k循环的一部分。推理与前一节中的推理类似。例如,考虑计算4×4 Payoff矩阵中的2个循环数:N=N=4,k=2,d=0。通过使用公式(S28),h(4,2,0)=f(4,2)2·2- h(2,2,1)/2, 式中,h(2,2,1)=f(2,2)= 2、有2个周期的f(4,2),其中每一个周期都有4种方法来放置层中剩余的两个最佳回复。但如果将这些组合在一起,形成另一个2周期,我们将计算2周期,因此我们需要从计数中删除一个最佳回复配置。我们使用缩写ρ(N,k)=hN(N,k,0)N2N(S29)表示至少有一个k-圈的N×N payoff矩阵的分数。因为固定点是长度为1的圈,所以可以使用公式(S29)计算至少有一个固定点的支付矩阵的数量,并且ρN(N=0)=1-h(N,1)N2N(S30)是无固定点的支付矩阵的分数。公式(S30)已用于主要论文图4中的底部红色分析线。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 09:00:05
在这些游戏中,最佳回复动态永远不会收敛到一个固定的点,其他学习算法也不太可能收敛(考虑主要论文中的图2)。因此,ρN(N=0)是具有N步的一般对策中非收敛频率的下界。现在定义n(n,d)=nXk=2f(n,k)N2(n-k)-hN(n- k、 k,d+1)d+2. (S31)该表达式类似于公式(S28),但它考虑了任何长度的k循环(k=1除外),而不是特定长度的k循环。实际上,我们求k的所有可能值的和,并且重复计数的项也考虑任何长度的循环。至少有一个周期的配置分数为ρNNXk=2nk>0=hN(N,0)N2N,(S32),该表达式已用于主要论文图4中的顶部蓝色分析线。它代表了使用nmove的一般游戏中不收敛频率的上限,因为在大多数情况下,缺少最佳回复周期意味着收敛。请注意,Pnk=2ρ(N,k)之和大于N2N,因为几个最佳回复配置具有不同长度的多个循环。相反,hN(N,0)总是小于N2N,因为有些配置有循环,但没有固定点。我们是否已经开始在Q中求和了。(S31)从k=1开始,计数将精确相加为N2N,因为所有配置至少有一个周期或一个固定点。S3.3吸引子的渐近频率Seq。(S28)可用于限制N→ ∞, 分析计算至少具有一个k循环或固定点的Payoff矩阵的绝对和相对频率。请注意,此计算可能与最近提出的graphons概念有关[S23],即graphsof in fite size。我们做以下安萨兹:limN→∞hN(N,k,0)N2N≈hN(N- k、 k,1)(N- k) 2(N-k) 。(S33)我们正在进行两次近似,其有效性将在事后验证。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 09:00:09
首先,k周期的频率达到一个固定点,即N→ ∞. 其次,hN(n,k,0)的函数形式与hN(n,k,1)的函数形式非常相似。我们知道事实并非如此,因为用于避免多次计数的术语——即hN(n- k、 k,d+1)–d=0时除以2,d=1时除以3。近似值仅适用于d→ ∞ (因为1/d和1/(d+1)非常相似),但我们感兴趣的数量d=0。我们可以写出N(N,k,0)N2N=N(N- 1) 。。。(N)- k+1)(k!)k(k)- 1) 哦!hN2(N-k)-hN(N-k、 k,1)iN2N。(S34)通过在等式(S33)中应用ansatz,并在一些代数之后,我们得到Limn→∞hN(N,k,0)N2N:=ρ(k)=(k!)k(k)- 1) 哦!(1)- ρ(k)/2),(S35),可自洽求解,得出ρ(k)=2k+1。(S36)N的So→ ∞, 固定点出现在2/3的支付矩阵中,2个周期出现在2/5的支付矩阵中,3个周期出现在2/7中,4个周期出现在2/9中,等等。等式(S36)已用于计算无固定点(1/3)的配置的交感频率,如主要论文图4所示。我们可以很容易地获得相对频率(相对于固定点):ρ(k)ρ(1)=2k+1,(S37)因此,2个周期出现的频率为固定点的3/5,3个周期出现的频率为3/7,4个周期出现的频率为3/9,5个周期出现的频率为3/11,等等。在图S13中,我们报告了k周期的频率,使用公式(S34)计算得出,作为可用移动次数N的函数。等式(S36)中的渐近行为与N=400的显式计算之间存在良好的对应关系,至少对于k的最小值(不包括固定点)。2 50 100 150 200 250 300 350 400N0.00.20.40.60.8频率。k循环2/32/52/72/92/112/132/15(N,1)(N,2)(N,3)(N,4)(N,5)(N,6)(N,7)图S13:k循环频率ρ(N,k),作为移动次数N的函数。右侧标注的数字是k循环的渐近频率,使用公式(S36)计算。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 09:00:12
近似值往往会略微高估频率,至少高达N=400,对于k值较大的情况更是如此。例外是固定点,其中近似值往往更差。参考文献【S1】Vincent P Crawford。在零和博弈中学习最优策略。《计量经济学:计量经济学学会杂志》,第885-8911974页。【S2】约翰·康利斯克。游戏中的适应:克劳福德难题的两种解决方案。《经济行为和组织杂志》,22(1):25–501993年。[S3]罗伯特·布卢姆·菲尔德。在实验室学习混合策略均衡。《经济行为和组织杂志》,25(3):411–4361994。【S4】茱莉亚·罗宾逊。解决游戏的迭代方法。《数学年鉴》,第296-301页,1951年。【S5】赫伯特·金蒂斯。博弈论演进:以问题为中心的战略行为建模介绍。普林斯顿大学出版社,2000年。【S6】马可·潘加洛、詹姆斯·桑德斯、托拜厄斯·加拉和J·多因·法默。2 x 2游戏中学习动态的分类。预印本可在https://arxiv.org/abs/1701.09043,2017。[S7]罗伯特·布什和弗雷德里克·莫斯特勒。学习的随机模型。约翰·威利父子公司,1955年。迈克尔·W·梅西和安德烈亚斯·弗莱奇。社会困境中的学习动力。国家科学院学报,99(增刊3):7229–72362002。Tobias Galla和J Doyne Farmer。学习复杂游戏的复杂动力学。《美国国家科学院院刊》,110(4):1232–12362013。[S10]Ido Erev和Alvin E Roth。预测人们如何玩游戏:强化学习非实验性游戏,具有独特的混合策略均衡。《美国经济评论》,88:848–8811998。【S11】G.W.Brown。游戏的迭代解法。《生产和分配活动分析》编辑T.C.Koopmans,第374-376页。威利,纽约,1951年。Drew Fudenberg和David K Levine。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 09:00:16
游戏学习理论,第2卷。MITpress,1998年。约翰·梅纳德·史密斯。进化论与博弈论。剑桥大学出版社,1982年。【S14】约瑟夫·霍夫鲍尔和卡尔·西格蒙德。进化博弈与种群动力学。剑桥大学出版社,1998年。蒂尔曼·博格斯和拉吉夫·萨林。通过强化和复制动态学习。《经济理论杂志》,77(1):1-142997年。科林·卡梅勒和特克·何。正常形式游戏中的经验加权吸引学习。《计量经济学》,67(4):827–8741999。【S17】佐藤裕如、秋山英三和詹姆斯·P·克鲁奇菲尔德。集体适应的稳定性和多样性。Physica D:非线性现象,210(1):21–572005。【S18】R.塞尔滕。双人游戏中的预期学习。R.Selten,《博弈均衡模型I》编辑,第98–154页。Springer Verlag,柏林海德堡,1991年。大卫·勒库蒂尔。游戏学习的随机动力学。曼彻斯特大学硕士论文,2013年。西奥多·埃文斯。k级推理:游戏学习的动态模型。曼彻斯特大学硕士论文,2013年。【S21】罗斯玛丽·内格尔。猜谜游戏中的解开:一项实验研究。《美国经济评论》,85(5):1313–13261995。文森特·克劳福德、米格尔·科斯塔·戈麦斯和纳戈尔·伊里贝里。非平衡战略思维的结构模型:理论、证据和应用。《经济文献杂志》,51(1):5–622013年。Christian Borgs和Jennifer T Chayes。Graphons:一种非参数方法,用于为大规模网络建模、估计和设计算法。arXiv预印本arXiv:1706.011432017。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群