加尔各答Paise餐厅分布式协调的出现

552

收藏 2022-06-02

英文标题：
《Emergence of Distributed Coordination in the Kolkata Paise Restaurant
Problem with Finite Information》
---
作者：
Diptesh Ghosh, Anindya S. Chakrabarti
---
最新提交年份：
2017
---
英文摘要：
In this paper, we study a large-scale distributed coordination problem and propose efficient adaptive strategies to solve the problem. The basic problem is to allocate finite number of resources to individual agents such that there is as little congestion as possible and the fraction of unutilized resources is reduced as far as possible. In the absence of a central planner and global information, agents can employ adaptive strategies that uses only finite knowledge about the competitors. In this paper, we show that a combination of finite information sets and reinforcement learning can increase the utilization rate of resources substantially.
---
中文摘要：
本文研究了一个大规模的分布式协调问题，并提出了有效的自适应策略来解决该问题。基本问题是将有限数量的资源分配给各个代理，以尽可能减少拥塞，并尽可能减少未使用资源的比例。在没有中央计划者和全球信息的情况下，代理可以采用自适应策略，仅使用有关竞争对手的有限知识。在本文中，我们证明了有限信息集和强化学习的结合可以显著提高资源的利用率。
---
分类信息：

一级分类：Computer Science 计算机科学
二级分类：Computer Science and Game Theory 计算机科学与博弈论
分类描述：Covers all theoretical and applied aspects at the intersection of computer science and game theory, including work in mechanism design, learning in games (which may overlap with Learning), foundations of agent modeling in games (which may overlap with Multiagent systems), coordination, specification and formal methods for non-cooperative computational environments. The area also deals with applications of game theory to areas such as electronic commerce.
涵盖计算机科学和博弈论交叉的所有理论和应用方面，包括机制设计的工作，游戏中的学习（可能与学习重叠），游戏中的agent建模的基础（可能与多agent系统重叠），非合作计算环境的协调、规范和形式化方法。该领域还涉及博弈论在电子商务等领域的应用。
--
一级分类：Quantitative Finance 数量金融学
二级分类：Economics 经济学
分类描述：q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学，包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载：
-->

Emergence_of_Distributed_Coordination_in_the_Kolkata_Paise_Restaurant_Problem_wi.pdf
大小:(394.51 KB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

何人来此

2022-6-2 13:42:36

有限信息Kolkata PaiseRestaurant问题中分布式协调的出现Diptesh Ghosh*Anindya S.Chakrabarti+2018年11月9日摘要本文研究了一个大规模的分布式协调问题，并提出了有效的自适应策略来解决该问题。基本问题是将有限数量的资源分配给各个代理，以尽可能减少拥塞，并尽可能减少未利用资源的比例。在缺乏中央规划师和全球信息的情况下，代理商可以采用仅使用有关竞争对手的有限知识的适应性投资策略。在本文中，我们证明了有限信息集和强化学习的结合可以显著提高资源的利用率。关键词：少数民族博弈、适应性策略、信息集、资源配置。在现代经济和社会中，大规模的协调问题比比皆是。在金融市场和供应链中，交易流、多流程或计算、匹配订单流是需要代理之间进行协调以使相应系统顺利运行的一些情况。在像集中市场这样的集中化系统中，人们可以想到一个中心规划器或一种算法来解决协调问题，并确保资源分配以最大限度地减少浪费。然而，许多经济和社会系统的特点是有大量独立参与的代理人和代理人竞争的有限资源[12]。在这种情况下，收集有关所有代理的信息以用于集中规划过程的成本过高。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-2 13:42:44

因此，一个重要的问题是为使用最小计算能力的单个代理找到有效的策略，并解决所有代理在本地使用时的全局协调问题[4]。这种自治的多智能体系统具有许多独特的特征。参考文献[10]总结了此类属性，如下所示。参与代理的数量很大，而且它们之间没有明确的通信。系统的聚合行为对单个代理故障具有鲁棒性，即单个代理的错误不会导致系统环境中断。这表明系统的适应能力和it自组织能力是其基本特征。经济和社会系统往往表现出巨大的相似性[15]，这两个系统在没有任何全球协调者的情况下，有时会受到外部和内部干扰的干扰，接近最优状态。加尔各答Paise餐厅（以下简称KPR）问题被认为是一个一般化的多主体、多选择问题[3、7]，本质上是这种情况的特征。有N个代理（人员）在竞争N个资源（再驻留人员）。一个资源在每个时间点只能为一个代理提供服务。代理的决策问题是选择一个资源，该资源由少数代理选择，或者没有其他代理选择。在选择资源时，代理不知道其他代理重新计划选择哪些资源。Thusit也是一个通用的少数民族游戏。在KPR背景下，客户在任何时期选择餐厅的策略都由a1×N概率向量表示，在此期间，客户将访问每个餐厅。这个*印度古吉拉特邦艾哈迈达巴德IIM生产和定量方法区，邮编380015。电子邮件：diptesh@iima.ac.in+印度古吉拉特邦艾哈迈达巴德IIM经济区，邮编380015。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-2 13:42:47

电子邮件：anindyac@iima.ac.in; 概率值的对应来源等于1。候选人的概率修正协议涉及在向量的组件之间重新分配概率和。如果候选人的概率向量在除一个位置外的所有位置上都有0，而在其余位置上只有1，则称其为稳定的。这种概率向量称为稳定化。一个稳定的顾客会在所有时期都去同一家餐厅，除非她修改了自己的概率向量。最近的研究集中于寻找客户可以在本地使用的策略（即不使用全球信息的策略），并动态地达到餐厅利用率最大化的状态。已经报告了几种此类战略。目前的文献表明，达到0.8的自动化率是可以实现的（即从长远来看，每个时期80%的餐厅都会为80%的顾客提供服务）。在本文中，我们提出了一套将局部信息与强化学习相结合的修订协议，并表明与文献中提出的策略相比，该协议的利用率有了显著的提高。我们提出的更新协议有两个重要组成部分。文献[8]表明，强化学习在解决协调博弈中非常有用。从本质上讲，这取决于巴甫洛夫式的“赢-留-输-移”战略。然而，仅仅依赖于这样一种策略，在实现高水平的利用率之前，将需要多指标和误差。如果反复出错代价高昂（例如，在通过计算机处理器解决任务分配问题或分配跨负载的情况下），那么这种策略就不是很有效。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-2 13:43:28

增强快速收敛到高利用率状态的一种可能方法是允许代理拥有更大的信息集。好处是代理可以使用信息集来减少错误尝试的次数。然而，这也是有代价的。跨多个代理拥有相似的信息集将迫使他们选择相同的资源集，因此，将无法实现留在“少数群体”或避开人群的最终目标【14】。我们在这篇论文中的贡献表明，这两种策略的结合可以提高资源的利用率。一个更重要的结果是，这种组合非常有效，因为在几次迭代中，利用率变得非常高。参考文献[9]在当地信息的帮助下研究了少数群体游戏中合作的出现。在此之前，研究了少数群体游戏，其中代理人可以访问一组随机代理人的历史。在一个关键的方面，我们的工作与那些人不同。此类模型中考虑的代理是布尔型的，这表明代理的选择集相当有限。另一方面，这里的资源数量也随着代理数量的增加而增加。因此，multi-choiceenvironment的引入使得解决方案的计算更加密集。然而，我们发现有非常简单的rev-ision协议使用本地信息，并且能够在全局水平上解决协调问题。在本文中，我们首先介绍了第二节中带强化学习的KPR问题。2、秒。3我们为客户提供了六个修订协议，以提高资源利用率。每个协议有两个变体。以秒为单位。4我们按照第节中介绍的修订协议模拟代理的行为。3、仿真结果表明，其中几个协议的利用率接近100%。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-2 13:43:31

我们在第二节总结了本文中的结果。5.2强化学习的KPR问题设I为客户集（| I |=N），R为R资产集（| R |=N），t=1，2。是代理和餐厅互动的时间段。在KPR表格m中，在每个时段开始时，每位客户选择一家她将在该时段访问的餐厅。因此，每家餐厅都会有z ero，一个或多个客户在任何时期选择餐厅。如果餐厅没有顾客，则在这段时间内餐厅将保持闲置状态。如果只有一位顾客，那么餐厅会为她提供服务。如果有多个顾客选择餐厅，餐厅会随机选择其中一个并为她提供服务，而其他顾客在此期间没有餐厅提供服务。我们的目标是确定每个客户在选择餐厅时将单独采用的概率修订协议，以便在一段时间内（我们称之为利用率）为客户提供服务的频率在多个时间段后尽可能高。在强化学习中，最初，每个客户分配一个访问每个餐厅的概率1/N inR。然后，她根据自己（可能有限）对前一时间段内客户在餐厅的分配情况的了解，修改了访问各种美国餐厅的可能性。在修订协议文献[3]中看到的一个假设是，如果客户与一家res taurant成功匹配，那么她将永远选择那家餐厅。这种修订协议有一个明显的缺点。Suppos e arestaurant在不同时期为不同的客户提供服务。然后，这些客户将在随后的所有时段都访问该餐厅，除其中一位外，其他所有客户都不会在任何时段提供服务。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

mingdashike22

2022-6-2 13:43:34

从长远来看，遵循这些修订协议将导致低利用率。在本文中，我们提出了修订协议并进行了实验，在该协议中，如果某个客户在某个特定时期内没有得到服务，那么无论她过去是否得到过任何服务，他都会在下一个时期内更改其概率向量。这意味着，在这些修订协议中，顾客只有在餐厅也回报顾客忠诚的情况下，才会对餐厅忠诚。3修订协议如上所述，在文献中，在每个时期将客户分配到餐厅后，对客户的概率向量进行了修订，如下所示。步骤1.1：对于当前期间餐厅服务的每位客户，将其概率向量修改为除为其提供服务的餐厅外的所有条目均为0，且与其提供服务的目标相对应的条目为1。（即，客户的概率向量稳定。）步骤1.2：对于当前期间未接受任何房地产服务且其概率向量不稳定的每个客户，我们修改其概率向量。步骤1.3：对于当前期间未接受任何房地产服务且其概率向量为s表的每个客户，我们不会修改其概率向量。不同的修订协议在步骤1.2中修订概率向量的方式上有所不同。对于任何修正方法，如果以这种方式修正概率向量，我们将修正机制称为该修正方法的变体1。据指出，变体1有以下缺点。假设有两个客户和两个餐厅jand j。假设他们都在第一阶段参观了jin餐厅和restaurantserves i。然后，我在所有后续阶段参观restaurant j。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-2 13:43:37

现在，假设在第二阶段，客户ivisits resta urant jagain。餐厅可以在餐厅里随机挑选顾客。在第二阶段，假设餐厅j为客户i提供服务。然后，在第二阶段之后的所有阶段，我和我都会访问j。每个阶段只提供其中一个。然而，餐厅在所有时段都处于闲置状态，利用率永远不会超过0.5。克服这一缺点的一种方法是允许所有在一段时间内没有得到服务的客户在下一个时间段内调整其可能性向量。本修订协议的实施如下。步骤2.1：对于本期餐厅服务的每位客户，以及前一期餐厅服务的每位客户，我们不修改概率向量。步骤2.2：对于在当前期间由餐厅提供服务且在前一期间未提供服务的每位客户，我们为该客户保留一份可能性向量的副本。然后，我们将她的概率向量修改为一个，其中除了为她服务的餐厅外，所有条目都是0，而为她服务的餐厅对应的条目是1。步骤2.3：对于当前期间没有任何餐厅提供服务但在前一期间提供服务的每位客户，我们将其概率向量替换为保存的副本（请参阅步骤2.2）。然后我们修正她的概率向量。步骤2.4：对于当前期间或前一期间没有餐厅服务的每位客户，我们修改其概率向量。同样，不同的修订协议在第2步中修订概率向量的方式上也有所不同。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-2 13:43:40

对于任何修正方法，如果以这种方式修正概率向量，我们将修正机制称为该修正方法的变体2。现在，我们描述了不同的修订协议，用于在信息有限的情况下修订概率向量。回想一下，这些修正是对概率向量进行的，而概率向量在周期开始时并不稳定。3.1修订协议RP1：关于竞争对手的本地信息我们假设第i个客户知道第i个客户（i+1）到第n个客户（i+k）在t期间发生了什么。因此，每个客户都知道给定订单中的特定客户子集。显然，两个客户的信息集是完全相同的，尽管它们可能会相交。假设客户i在时段t访问餐厅r，但没有得到服务。然后她修改了她的概率向量。她在下一个期间将访问r餐厅和客户（i+1）通过（i+k）在t期间访问的所有其他餐厅的概率重置为0，并根据她在t期间分配给这些餐厅的概率，将她分配给这些餐厅的概率值重新分配给保留餐厅。让Vit成为客户i至（i+k）|按iod t访问，并让Pit=Pj∈Vitpijt；i、例如，Pit是指我分配给她或她所知道的其中一位客户在t期间访问过的餐厅的概率。如果Pit=1，则她将访问餐厅的概率平均分布在Vita以外的餐厅中，并将其概率向量修改为Ij（t+1）=如果j，则为0∈ 维生素，1/（N）- |Vit |）否则。（1）如果Pit<1，则她将概率质量Pit按比例分配给不在Vit的餐厅。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-2 13:43:43

本修订协议中的Thusher修正概率向量ispij（t+1）=（如果j∈ Vit、pijt1+Pitpijt/（1）- 坑）否则（2） 3.2修订协议RP2：信息集的划分在现实中，人们通常会形成亲密伙伴和朋友的集群，而不是重叠的连接串。为了模拟这种情况，我们假设客户被划分为多个组。每个组都知道在t期间组中的其他成员发生了什么。假设C是客户集合的一个分区，客户i属于集合Ci∈ 此分区中的C。我们假设分区的每个集合中的客户彼此共享他们之前访问的结果。RP2中c客户的修订协议与RP1中的修订协议非常相似。两个修订协议之间的区别在于，在RP2中，集合Ci中每个成员的处置信息∈ C是相同的，而在RP1中，每个客户都知道不同且独特的客户群的访问结果。3.3修订协议RP3：划分有关资源的信息集，前提是客户不了解其他客户，但可以访问有关餐厅如何利用的信息。更具体地说，餐厅被分成若干组。在t时段内，在餐馆就餐的顾客知道r所住群体中的其他餐馆发生了什么。假设R是一组restaurants的一个划分。在t期间参观过餐厅的客户i了解r中餐厅的状态∈ Rr其中Rr∈ R、假设顾客在P时段访问餐厅R，但没有得到服务，并修改其概率向量。她将分配给RRT中在t期间为客户提供服务的餐厅的概率重新分配给RRT中在t期间不为客户提供服务的餐厅。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-2 13:43:47

她没有关于R地区餐厅状况的信息，因此不会修改访问这些餐厅的概率。设Vrt为RRT中在时段t内为客户提供服务的餐厅的子集，并设Wrt=Rr\\Vrt。LetPit=Pj∈Vrtpijtand Qit=Pj∈Wrtpijt。如果Qit=0，即如果客户r不打算在Wrtin期间t访问餐厅，则客户i将其概率向量topij（t+1）=如果j，则为0∈ Vrt，1/| Wrt |如果j∈ Wrt，PIJT，否则。（3）如果Qit>0，则她修改概率向量topij（t+1）=如果j，则为0∈ Vrt，pijt1+Pitpijt/Qit如果j∈ Wrt，PIJT，否则。（4） 3.4修订协议RP4：关于资源的不完善信息下一步，客户获得的关于t时期内闲置的餐厅集合的不完善信息。假设信息是t时期内闲置的餐厅集合是RIt R、同时假设闲置餐厅信息的准确度为α，0≤ α ≤ 1、如果α=0，则随机选择的一个稳定器属于RItis 1/e的概率；见【3】。如果α=1，则餐厅在实际闲置时属于RItis的概率为1，否则为0。对于0<α<1，arestaurant属于RItis的概率（1- α）如果餐厅实际闲置，则为+α/e，否则为α/e。现在，如果在时间段t内未接受服务的客户i认为信息是正确的，即RItis实际上是闲置餐厅的集合，那么她将修改其概率向量，以便分配给RItis 1中所有餐厅的概率质量之和如下所示。设Pt=Pj∈RItpijt。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-2 13:43:50

如果Pt=0，则将另一个概率向量修改为ij（t+1）=1/| RIt |如果j∈ RIt，否则为0；（5）如果Pt>0，则topij（t+1）=pijt/Ptif j∈ RIt，否则为0。（6） 3.5修订协议RP5：对全球信息的怀疑现在支持向客户提供关于t期间闲置餐厅的正确信息。然而，他们分配了信息正确的概率π。假设t时期闲置的餐馆是RIt R、如果在t期内未被服务的客户i分配了该信息正确的概率1，则她将修改其概率向量，以便将概率分配给RItis 1中的所有餐厅，如下所示。设Pt=Pj∈RItpijt。如果Pt=0，则r概率向量被修正为Ij（t+1）=1/| RIt |如果j∈ RIt，否则为0；（7）如果Pt>0，则topij（t+1）=pijt/Ptif j∈ RIt，否则为0。（8）如果她指定了一个概率0，表示该信息是正确的，她将忽略该信息，因此仅在她无法获得餐厅r的信息时修改她的概率。她将修改概率向量topij（t+1）=如果j=r，则为0，pijt1+pirt/（1）- pirt）否则（9）现在，由于客户将概率π分配给信息的正确性，客户i的修正概率向量ispij（t+1）=πpij（t+1）+（1- π）所有j的pij（t+1）∈ R、（10）3.6修订协议RP6：不相信本协议中的不完善信息，我们假设提供的关于闲置资源集的信息是不完善的，就像RP4中的情况一样。我们还要求客户就信息的真实性在0和1之间指定一个概率值，如RP5。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-2 13:43:52

这可能是不完美信息最现实的情况。接下来，我们将报告本节所述修订协议的模拟研究结果。4秒模拟结果。3我们已经描述了在KPR问题中修改客户概率向量的六种重新设想协议。每一个修订版都会产生两种变体，这取决于曾经被餐厅服务过的顾客是否在随后的所有时期或仅在餐厅为他们提供服务的时间内对该餐厅保持忠诚。在本节中，我们通过模拟测试这些修订协议的有效性。我们通过利用率来衡量修订协议的有效性，利用率是指在一段时间内为客户服务的员工的比例。好的修订协议的利用率分数的值在几次迭代中接近1。顺便提一下，随机选择arestaurant策略的利用率为1- 1/e；见【3】。我们使用的另一个度量是稳定性分数，它是在迭代中保持稳定的客户的吸引力。在每个修订协议的变体1中，在某个时期变得稳定的客户在随后的所有时期都保持稳定。因此，我们预计稳定性比会随着迭代次数的增加而增加。在Var iant 2中情况并非如此，因为只要餐厅为顾客提供服务，顾客就很稳定。因此，在变量2中，稳定性分数等于每个时期的利用率分数。对于我们的模拟，我们将N的值设置为1000。当客户的概率向量按照RP1到RP5到20个周期的描述进行修改时，我们跟踪这两个变量的性能。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-2 13:43:56

当重新调整RP6中描述的客户概率向量时，我们发现在不同的精确度和置信水平下，最终达到的利用率fr行动值，并绘制它们。图1和图2显示了所有六个修订协议的其他变体所获得的利用率分数值的变化情况。图3显示了当按照RP1至RP5至20个周期中所述对客户能力向量进行校正时，第一个变量的稳定性摩擦变化。如前所述，在第二种变体中，稳定性比率等于所有每IOD的利用率分数。图3中的曲线图显示，五个修订方案（RP1至RP5）的稳定性分数在最多20个周期后达到1。这意味着，对于这五个修订协议中的变量1，利用率分数值不会比20个周期结束时的值增加（参见图1和图2中的变量1列）。因此，对于RP1到RP3，当客户没有其他客户或餐厅的信息时，利用率分数的最终值从大约0.8增加到1，当客户有完整的信息时。RP6的结果显示了有趣的结果。我们看到，当对信息的信任度较高时，随着信息准确性的提高，利用率的值也随之增加。当对信息的信任度较低时，利用率不会随信息的准确性发生明显变化。这是可以理解的，因为在这些修订协议中，客户大多忽略了提供的信息。当信息的保密性较低时，我们看到利用率值呈增长趋势。在那里，利用率不会随着对信息的信任度的增加而单调增加。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-2 13:43:59

这可能是因为相信毫无价值的信息能够让客户做出错误的决定。在所有六个修订协议中，我们发现，通过遵循arevision协议的变体2获得的利用率分数优于变体1获得的利用率分数。这表明，如果餐馆不为顾客提供服务，顾客最好重新考虑他们的选择。由于在20次迭代结束时，所有修订协议的变体1的稳定性比率值达到统一，我们知道，在20次迭代结束时，通过遵循这些修订协议获得的利用率分数是从中获得的最佳值。然而，从我们的模拟中不清楚这是否是每个修订版本的变量2的修订协议。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群