全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1598 57
2022-05-31
英文标题:
《Towards a taxonomy of learning dynamics in 2 x 2 games》
---
作者:
Marco Pangallo, James Sanders, Tobias Galla and Doyne Farmer
---
最新提交年份:
2021
---
英文摘要:
  Do boundedly rational players learn to choose equilibrium strategies as they play a game repeatedly? A large literature in behavioral game theory has proposed and experimentally tested various learning algorithms, but a comparative analysis of their equilibrium convergence properties is lacking. In this paper we analyze Experience-Weighted Attraction (EWA), which generalizes fictitious play, best-response dynamics, reinforcement learning and also replicator dynamics. Studying $2\\times 2$ games for tractability, we recover some well-known results in the limiting cases in which EWA reduces to the learning rules that it generalizes, but also obtain new results for other parameterizations. For example, we show that in coordination games EWA may only converge to the Pareto-efficient equilibrium, never reaching the Pareto-inefficient one; that in Prisoner Dilemma games it may converge to fixed points of mutual cooperation; and that limit cycles or chaotic dynamics may be more likely with longer or shorter memory of previous play.
---
中文摘要:
无限理性的玩家是否在反复玩游戏时学会了选择均衡策略?行为博弈论中的大量文献提出并实验测试了各种学习算法,但缺乏对其均衡收敛特性的比较分析。在本文中,我们分析了经验加权吸引(EWA),它概括了虚拟游戏、最佳反应动力学、强化学习以及复制子动力学。通过研究$2×2$博弈的可处理性,我们在极限情况下恢复了一些众所周知的结果,其中EWA简化为它推广的学习规则,但也获得了其他参数化的新结果。例如,我们证明了在协调博弈中,EWA可能只会收敛到帕累托有效均衡,而不会达到帕累托无效均衡;在囚徒困境博弈中,它可能会收敛到相互合作的固定点;而极限环或混沌动力学可能更可能与之前播放的较长或较短的记忆有关。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Physics        物理学
二级分类:Chaotic Dynamics        混沌动力学
分类描述:Dynamical systems, chaos, quantum chaos, topological dynamics, cycle expansions, turbulence, propagation
动力系统,混沌,量子混沌,拓扑动力学,循环展开,湍流,传播
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-31 03:06:42
2×2游戏中学习动力的分类?Marco Pangallo、James B.T.Sanders、Tobias Galla和J.Doyne Farmer3,4,5圣安娜高等研究院经济与系嵌入研究所,Pisa 56127,曼彻斯特大学物理与天文学院意大利理论物理学院,曼彻斯特M13 9PL,牛津大学牛津分校牛津马丁学院英国新经济思想研究所,牛津牛津牛津大学OX2 6ED,英国数学研究所,牛津大学,牛津OX1 3LP,英国圣达菲研究所,圣达菲,新墨西哥州87501,美国2021年9月3日摘要有边界的理性玩家在反复玩游戏时会学习选择均衡策略吗?行为博弈论中的大量文献提出并实验测试了各种学习算法,但缺乏对其均衡收敛特性的比较分析。在这篇文章中,我们分析了经验加权吸引(EWA),它概括了行动游戏、最佳反应动力学、强化学习和同样的复制因子动力学。通过研究2×2对策的可处理性,我们在极限情况下恢复了一些众所周知的结果,其中EWA简化为它推广的学习规则,但也获得了其他参数化的新结果。例如,我们表明,在协调博弈中,EWA可能只会收敛到帕累托均衡,而不会达到帕累托均衡;在囚徒困境博弈中,它可能会收敛到相互合作的固定点;而极限环或混沌动力学可能更可能与之前游戏的较长或较短记忆有关。关键词:行为博弈论、EWA学习、收敛、均衡、混沌。果冻等级:C62、C73、D83。*通讯作者:marcopangallo@gmail.com.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:06:46
对于有帮助的意见和建议,我们感谢广告编辑和两位匿名评论员,以及文斯·克劳福德(Vince Crawford)、Cars Hommes(Cars Hommes)、山姆·豪森(Sam Howison)、裴兰娇(PeiranJiao)、罗宾·尼科尔(Robin Nicole)、卡尔·施拉格(Karl Schlag)、米哈拉·范德沙尔(Mihaela Van der Schaar)、亚历克斯·泰特尔博伊姆(Alex Teytelboym)、佩顿·杨(Peyton Young)以及2017年欧洲经济区年会、纽菲尔德学院(Nu ffeld College)、2016年伊内特·伊西(INET YSI)全体会议、赫伯特·西蒙社会国际研讨会的研讨会参与者,2016年复杂系统会议和国王学院。马可·潘加洛(Marco Pangallo)在牛津大学新经济思维与数学研究所(Institute for New Economic Thinking and Mathematic Institute)任职期间完成了本文中的研究。他感谢INET和EPSRC奖项1657725.1的财政支持。在本文中,我们研究了参与完全重复游戏的有界理性玩家。在这个游戏中,玩家在每一轮后使用adaptivelearning规则更新他们的舞台游戏策略。我们确定玩家何时收敛到纳什均衡(NE),何时收敛到非NE的平稳状态,或者何时学习动力学从不收敛到任何固定点,渐近遵循极限环或混沌吸引子。更具体地说,我们分析了经验加权吸引(EWA)的学习动态(Camerer和Ho,1999)。EWA之所以具有吸引力,有几个原因。从实验的角度来看,EWA已被证明在几类游戏中相对较好地描述了真实玩家的行为,并且在实验中仍被广泛用于建模行为。因此,我们的分析为实验中可以预期的学习动态提供了理论指导。从理论角度来看,EWA很有吸引力,因为它概括了四条著名的学习规则。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:06:49
事实上,对于其参数的某些限制值,它会降低到最佳反应动力学、各种形式的游戏(Fudenbergand Levine,1998)、强化学习以及具有有限记忆的广义双种群复制动力学(Sato和Crutch field,2003)。了解EWA下的学习行为,可以通过在各自的参数化之间进行插值来概括这四种更简单的学习算法的结果。这产生了在极限情况下可能无法观察到的新现象。我们将分析重点放在两人游戏上,在两人游戏中,相同的两名玩家在每一步重复匹配,以玩相同的阶段游戏,每个玩家有两个动作可用。这些被称为2×2游戏。我们之所以选择2×2博弈,是因为它们包含了博弈理论家通常研究的许多战略紧张关系,而且它们也很简单,可以在一些EWA参数化下对学习行为进行全面的分析表征。虽然我们无法为所有游戏和学习参数的组合提供封闭形式的解决方案,但我们提供解决方案的参数化涵盖了之前研究的大多数案例以及它们之间的转换。因此,我们的方向是为一系列学习规则和任何支付矩阵提供2×2场学习动态的“分类法”。在EWA简化为其概括的学习规则的极限参数化中,我们恢复了众所周知的结果。例如,我们的分析表明,在2×2博弈中,fictiiousplay总是收敛到一个NE(宫泽,1961)。特别是,在匹配硬币的游戏中,策略空间的中心位置会汇聚到混合策略NE,玩家可以在头尾之间以相同的概率随机选择。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:06:52
相反,在EWA减少为两个种群复制子动力学的极限情况下,它围绕匹配的便士平衡旋转,这也符合文献(Hoffauer和Sigmund,1998)。然而,根据实验数据估计的EWA参数很少与这些有限的参数化相对应,而是位于参数空间的内部(Camererand Ho,1999)。这一经验事实使我们有必要了解参数的一般值会发生什么。离开参数空间的“边界”也会产生一些新现象。例如,再次考虑到匹配的便士游戏、游戏和复制者动态学习规则,记忆在促进趋同到平衡中的作用并不是微不足道的。在实际游戏中,较长的记忆使趋同更可能达到平衡。事实上,虽然具有有限记忆的游戏的标准版本总是会收敛到匹配硬币的混合NE,但具有有限记忆的游戏版本却不会。相反,具有有限记忆的标准(两种群)复制子动力学并不收敛于混合NE,而我们表明,一个完整记忆泛化会收敛于混合NE。较长的记忆如何可能在实际应用中促进均衡收敛,而在复制子动力学中却有相反的效果?我们对EWA学习的分析解释了这种差异,并在参数空间中确定了一个精确的边界,在这个边界上,记忆对稳定性的影响是显著的。我们的研究表明,这取决于经验和吸引力这两个EWA关键组成部分的增长速度。当这两个数量以相同的速度增长时,就像在实际游戏中一样,玩家会对之前经历的支付和新支付进行加权平均,而更长的记忆意味着新支付的权重更小。因此,更长的记忆直观地促进了稳定性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:06:55
相反,当体验增长不到或增长速度慢于景点时,较长的记忆并不意味着新的支付权重较低。在这种情况下,较短的记忆有助于趋同,因为快速忘记过去的付出会使玩家更有可能在他们的动作之间随机化,而没有任何玩家被强烈吸引到前倾或尾部。另一个具体例子表明,在理解2×2协调博弈中帕累托均衡的收敛性时,超越EWAis的极限情况是有用的。这样的游戏有两个纯NE可以进行帕累托排序。对于简单的学习规则,如游戏或复制动态,帕累托效率NE始终是局部稳定的。这意味着,如果参与者开始时充分接近这种平衡,他们将永远留在那里。我们的分析表明,对于EWA参数的某些值,和/或对于非常强的效率(即,帕累托最优NE明显优于其他NE),帕累托效率NE可能不再是局部稳定的。换句话说,玩家永远不会停留在那里,总是收敛到帕累托最优NE。最后一个例子涉及囚徒困境游戏。(与本文研究的其他游戏相比,在这些游戏中,我们对舞台游戏策略的限制可能不太现实。事实上,与历史相关的策略,如针锋相对的策略,已经多次被证明具有实验相关性。)在最佳反应动力学、主动游戏和复制动力学下,双方合作的动作角色永远不会是局部稳定的。这是因为,在这三条规则下,玩家总是会考虑放弃支付。如果他们开始操作,当考虑放弃支付时,他们意识到,通过单方面切换到缺陷,他们可能会获得更高的支付。然而,在强化学习下,合作固定点可以是局部稳定的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群