全部版块 我的主页
论坛 经济学人 二区 外文文献专区
699 21
2022-05-25
英文标题:
《Self-organization in a distributed coordination game through heuristic
  rules》
---
作者:
S. Agarwal, D. Ghosh and A. S. Chakrabarti
---
最新提交年份:
2016
---
英文摘要:
  In this paper we consider a distributed coordination game played by a large number of agents with finite information sets, which characterizes emergence of a single dominant attribute out of a large number of competitors. Formally, $N$ agents play a coordination game repeatedly which has exactly $N$ Nash equilibria and all of the equilibria are equally preferred by the agents. The problem is to select one equilibrium out of $N$ possible equilibria in the least number of attempts. We propose a number of heuristic rules based on reinforcement learning to solve the coordination problem. We see that the agents self-organize into clusters with varying intensities depending on the heuristic rule applied although all clusters but one are transitory in most cases. Finally, we characterize a trade-off in terms of the time requirement to achieve a degree of stability in strategies and the efficiency of such a solution.
---
中文摘要:
在本文中,我们考虑了一个由大量具有有限信息集的代理参与的分布式协调博弈,其特征是大量竞争对手中出现了一个单一的主导属性。形式上,$N$代理重复地玩一个协调博弈,该博弈具有精确的$N$纳什均衡,并且所有均衡都是代理同样偏好的。问题是要以最少的尝试次数从$N$可能的均衡中选择一个均衡。我们提出了一些基于强化学习的启发式规则来解决协调问题。我们发现,尽管在大多数情况下,除一个簇外,所有簇都是暂时的,但代理会根据应用的启发式规则以不同的强度自组织成簇。最后,我们描述了在时间要求方面的权衡,以实现策略的一定程度的稳定性和这种解决方案的效率。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-25 12:02:10
基于启发式规则的分布式协调博弈中的自组织*Diptesh Ghosh+Anindya S.Chakrabarti2018年10月17日摘要在本文中,我们考虑了一个由大量代理使用有限信息集进行的分布式协调博弈,其特征是大量竞争对手中出现了一个单一的主导属性。形式上,N个代理重复地玩一个协调博弈,该博弈正好有N个纳什均衡,并且所有的均衡都是代理同样喜欢的。问题是在最少的尝试次数中选择N个可能平衡的一个平衡。我们提出了一些基于强化学习的启发式规则来解决协调问题。我们看到,尽管在大多数情况下,除了一个簇外,所有簇都是暂时的,但agent根据应用的启发式规则以不同的强度自组织成簇。最后,我们从时间要求的角度来描述一种权衡,以实现战略的一定程度的稳定性和这种解决方案的效率。关键词:多数游戏、适应、强化学习、分布式协调、自组织。JEL代码:C72、C63、D611简介了解大规模多智能体系统的集体行为是物理学和社会物理学文献中的一个重要问题[1,2]。通常在社会和经济世界中,我们会发现*电子邮件:shubham119413@gmail.com,印度理工学院,印度钦奈600036。+电子邮件:diptesh@iima.ac.in,生产和量化方法领域,印度管理学院,艾哈迈达巴德380015,印度(对应作者)电子邮件:anindyac@iima.ac.in,经济区,印度管理学院,Ahmedabad380015,印度。以及无法用基本性质来解释的全球特征的演变【3】。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-25 12:02:13
我们找到了比竞争对手更受欢迎的特定社会规范或技术的例子,这些规范或技术在属性方面并不一定更差。同样,通过社会和经济主体之间的强化,规范和观点也呈现出非平衡状态【4】。领导者是通过数百万个人之间复杂的竞争和互动过程在政治环境中产生的。在本文中,我们提出了一个简单的多智能体游戏,以研究通过复杂和自适应的交互过程(参见参考文献[6]),在许多潜在竞争对手中出现一个主导属性。我们关注大尺度相互作用的两个性质。首先,代理可以从许多可能相同的选择中协调特定的选择,这些选择也可能被解释为合作的出现[7],其次,这种协调可能需要时间才能达成,但一旦达成,就可以相当稳定。因此,我们讨论了协调发生的动态(和潜在非平衡)过程以及最终平衡的稳定性[5]。我们考虑一个原型模型来研究这种情况。特别地,我们考虑了一个具有N个代理和N个选择的简单协调博弈。个体代理的目标是收敛到一个普遍选择的结果;i、 这个游戏可以被认为是一个多数人游戏。在博弈论的语言中,这与均衡选择的思想有关。在我们的博弈中,存在N个可能的纯策略纳什均衡,每个均衡对代理都具有同等的吸引力。问题是,在没有交流的情况下,代理如何只收敛到一个平衡?当然,我们不允许中央计划者支配解决方案,因为这会使问题变得微不足道,也不切实际。在我们的模型中,代理反复玩游戏,他们总是想占大多数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-25 12:02:16
我们首先提出了几种基于naive学习的策略,允许代理以分布式方式解决此协调问题[8]。接下来,我们假设代理希望将其实验成本降到最低,即尽快提出一些固定的策略,即使其结果不是绝对多数。这导致了稳定性程度(达到近似经验法则的时间)和解决方案效率(即协调程度)之间的权衡。我们提出了多种启发式协调策略,在不同程度上解决了问题。我们根据著名的Polya的urnmodel提出了一个Polya方案,该方案允许我们在多种类型的强化学习过程之间进行插值[9]。本文与少数民族游戏的文献[10-12]和少数民族游戏的推广密切相关,少数民族游戏被称为加尔各答派餐厅(KPR)问题[13,14]。在少数派游戏中,有N个代理和2个选项可供选择。代理人的目标是在少数人中。KPR问题将其扩展到了一个具有N个代理和N个选项标记为餐馆的小游戏。本着参考文献[15]的精神,我们多次尝试提出使用有限理性的有限信息集的策略。有兴趣的读者可以参考参考文献[16]进行全面审查。我们提出的模型与多选少数民族博弈完全相反。这两个问题都是大规模分布式协调问题的例子,这些问题研究的是使用有限学习的自适应策略的计算代理。[17] 。在本文中,我们证明了由于强化学习,代理收敛到特定的选择。特别是,根据强化程度的不同,代理可能会被困在不同的选择中,产生不同大小的集群。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-25 12:02:21
聚类行为已经在少数民族游戏的背景下进行了研究[18]。在这里,这种行为还意味着,由于强化,非均衡配置也可能存在,因此不一定是“赢家通吃”的情况。最后,我们表明,如果代理不仅重视协调,而且重视实现绝对协调所需的时间,那么最终解决方案的效率和稳定性将存在权衡效应。图1:有两名玩家的协调游戏的支付矩阵。A,A和B,B都是平衡。2 N-agent协调博弈我们考虑N个agent和M个选项。时间是离散的,在每个时间点,每个代理都会在M个选项中选择要使用的选项。为了验证这个想法,可以想象每个选项代表一家代理将在一段时间内访问的餐厅。因此,N个代理的策略是在每个时间段选择一家餐厅进行访问。在任何特定的时间段内,任何给定的餐厅最多可容纳N名代理。代理商的目标是保持大多数,即代理商希望搬到代理商数量较多的餐厅。原则上,N可能不等于toM。为了使问题具有对称性,我们假设n=M,即代理的数量等于餐厅的数量。我们在此还强调,博弈必然是非合作的,代理之间不允许通信。所有代理的信息集仅限于他们的历史和对餐馆客户过去演变的部分了解。自然,允许代理商获得所有餐厅的完整历史记录将立即解决问题,因为代理商可以采用一种策略,即在时间片1中,他们会选择并在下一个时间片中,他们会搬到第一时间片中吸引最多代理商的餐厅。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-25 12:02:24
为了获得一个非平凡的解决方案,我们只允许代理使用部分历史集。我们详细阐述了以下每种策略的信息集的具体情况。图1显示了两个参与者的一般收敛博弈的支付矩阵。两位玩家都有策略A和B,即他们可以选择参观A餐厅或B餐厅。如果他们两人都决定参观同一家餐厅(A或B餐厅),那么两人的结果都会比参观不同餐厅的结果更好。可能会注意到几点。这个游戏是著名的性别之战游戏的简化版(参见教科书中的治疗)。两性之战游戏允许两个玩家参与,其中经纪人的目标是汇聚到一家餐厅,尽管他们对餐厅的偏好有所不同。在本文中,我们假设一个多agent多选择场景有2个≤ N<∞代理,但假设所有代理对餐厅都有相同的偏好。代理商根据餐厅的吸引力来决定他们的策略。我们将餐厅的吸引力(A)定义为选择该餐厅的代理数量。因此,吸引力取决于代理人所拥有的信息集。当然,在任何给定的时间段,都不可能知道有多少其他代理正在选择一个给定选项。为了完整性,我们定义了协调博弈的纳什均衡。纳什均衡被定义为一个策略集合,在给定其他每个代理的策略的情况下,每个代理通过不切换到不同的策略而表现出微弱的优势。出于我们的目的,本说明适用。有关教科书的描述,请参见[19]。从图1可以看出,存在两种纯策略纳什均衡,即:。要么去A餐厅,要么都去B餐厅。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群