|   中国人民大学出版社 内容简介:  | 
|   在经济学中,绝大多数的非合作博弈理论集中研究博弈中的均衡问题,尤其是纳什均衡及其精炼。对均衡什么时候出现以及为什么均衡会出现,传统解释是,均衡是在博弈的规则、参与人的理性以及参与人的支付函数都是共同知识的情况下,由参与人的分析和自省所得出的结果。不论是在概念上还是在实证上,这个理论都存在许多问题。 在《博弈学习理论》一书中,朱·弗登伯格和戴维·K·莱文提出了另一种解释:均衡是并非完全理性的参与人随时间的推移寻求最优化这一过程的长期结果。他们研究的模型为均衡理论提供了基础,并为经济学家评价和改进传统的均衡概念提供了有用的方法。  | 
| 作者简介: | 
| 朱·弗登伯格是哈佛大学的经济学教授。黛维·K·莱文是加利福尼亚大学洛杉矶分校的经济学教授。 | 
点 评
  本书收集了博弈学习和演进理论的前沿领域中的主要现有成果,以及该领域两位权威学者的新成果。对于任何从事学习理论和博弈理论研究或在应用研究中使用演进博弈理论的人来说,这本书将是必不可少的。
      ——拉里·萨缪尔森、安托万·奥古斯丁·库诺特经济学教授 威斯康星大学
  对经济理论和博弈理论中的演进和学习领域做出杰出贡献的两位学者所写的这本优秀著作,内容非常广泛。它对于高年级本科生、研究生和理论工作者将非常有用。
      ——埃迪·德科尔 西北大学
  本书巧妙地介绍了博弈学习和演进理论中近些年来提出的大量模型,同时对这些模型进行了非常精细的解释,并用例子加以说明,将这些模型相互联系在一起。
      ——尤根·W·威布尔 经济系 斯德哥尔摩经济学院
人大网上书店:http://club.crup.cn
[此贴子已经被作者于2006-12-10 0:58:27编辑过]
目录:
书名: 博弈学习理论(当代世界学术名著·经济学系列) 
书号: F1812 
ISBN: 7-300-05747-0 
作者: [美]朱·弗登伯格 
第1章 引论
1.1 前言
1.2 大群体模型和匹配模型
1.3 三个常用的学习和/或进化模型
1.4 库诺特调整
1.5 库诺特动态分析
1.6 具有锁定功能的库诺特过程
1.7 回顾同时行动有限博弈
附录:动态系统和局部稳定性
参考文献
  第2章 虚拟行动
2.1 引言
2.2 两人虚拟行动
2.3 虚拟行动中的渐近行动
2.4 对虚拟行动中循环的解释
2.5 多人虚拟行动
2.6 虚拟行动的支付
2.7 两战略博弈中的一致性和相关均衡
2.8 虚拟行动和最优反应动态
2.9 虚拟行动的一般化
附录:狄利克雷先验和多项抽样
参考文献
  第3章 模仿者动态和相关的确定性进化模型
3.1 引言
3.2 同质群体中的模仿者动态
3.3 同质群体模仿者动态的稳定性
3.4 进化稳定战略
3.5 非对称模仿者动态模型
3.6 对模仿者动态方程的解释
3.7 模仿者动态的一般化和重复剔除严格劣战略
3.8 短视调整动态
3.9 集值极限点和漂移
3.10 廉价磋商和秘密握手
3.11 离散时间模仿者系统
附录:刘维尔(Liouville)定理
参考文献
  第4章 随机虚拟行动和混合战略均衡
4.1 引言
4.2 收敛的概念
4.3 渐近短视和渐近经验主义
4.4 随机扰动支付与平滑最优反应
4.5 平滑虚拟行动和随机逼近
4.6 部分抽样
4.7 普遍一致性和平滑虚拟行动
4.8 刺激反应和作为学习模型的虚拟行动
4.9 对战略空间的学习
附录:随机逼近理论
参考文献
  第5章 具有持续随机性的调整模型
5.1 引言
5.2 回顾随机调整模型
5.3 坎多里迈拉斯罗布(Kandori Mailath Rob)模型
5.4 讨论其他动态
5.5 局部相互作用
5.6 吸引域的半径和协半径
5.7 修正的协半径
5.8 具有异质群体的一致随机匹配
5.9 随机模仿者动态
附录A:有限马尔可夫链的回顾
附录B:随机稳定分析
参考文献
  第6章 扩展式博弈和自确认均衡
6.1 引言
6.2 一个例子
6.3 扩展式博弈
6.4 一个简单的学习模型
6.5 自确认均衡的稳定性
6.6 异质的自确认均衡
6.7 一致自确认均衡
6.8 一致自确认均衡与纳什均衡
6.9 可理性化的自确认均衡和关于对手支付的先验信息
参考文献
  第7章 纳什均衡,大群体模型和扩展式博弈中的变异
7.1 引言
7.2 相关信息集和纳什均衡
7.3 外生试验
7.4 在被比做吃角子老虎机问题的博弈中的学习
7.5 定态学习
7.6 “快速学习”模型中的随机调整和后向归纳
7.7 廉价磋商博弈中的变异和快速学习
7.8 试验和期限的长度
附录:吃角子老虎机问题回顾
参考文献
  第8章 老练学习
8.1 引言
8.2 条件学习的三个范例
8.3 老练学习的贝叶斯方法
8.4 绝对连续条件的解释
8.5 选择专家
8.6 条件学习
8.7 折现
8.8 分类策略和循环
8.9 内省的分类规则,校准和相关均衡
8.10 模式识别中的索斯诺模型
8.11 操纵学习程序
参考文献お
索引
第7章 纳什均衡,大群体模型和扩展式博弈中的变异
7.1引言
正如我们已经看到的那样,不存在扩展式博弈中的简单学习会导致纳什均衡结果的假定,即使当学习过程收敛时也是如此。然而,如果一个收敛的学习过程产生“足够的”对偏离均衡路径的学习,则该学习过程将收敛于纳什均衡的结果。本章研究有多少信息是“足够的”以及哪种力量可能导致有“足够的”可以利用的信息等相关问题。当我们讨论一些解释时,我们研究的中心问题是如下的思想:为了得到他们的对手如何对这些很少被采取的行动做出反应的信息,参与人有时会故意采取不能最大化当期期望支付的行动来“试验”。
作为本章的第一步,我们处理如下问题,即为了排除除了纳什均衡之外的结果,到底多少关于对手行动的信息是“足够的”。纳什均衡的通常的定义意味着参与人知道他们对手使用的整个战略组合,或者等价的,知道会在任何一个信息集中出现的行动的概率分布。然而,这些知识比必需的知识要多,因为一个给定参与人关于在某些信息集中的行动的信念可能对他如何选择行动毫无影响。实际上,参与人在与他“相关的”信息集上有正确的信念就足够了。我们将在本章第二节中系统地阐述这一思想。
第三节研究了能够导致纳什均衡的外生规定的行为(按照虚拟行动的思想)上的充分条件。第四节检验这些假定,它们可以如何被放松以及博弈中的学习和多臂吃角子老虎机问题(mutli-armed bandit problelms)中的学习之间的联系。(这是最常见的赌博游戏。吃角子老虎机又称作“独臂强盗”,其赌法非常简单,只需将筹码投进投币口,然后拉动手柄或单击“旋转”按钮,角子机器便开始转动,如果转动停止的时候,图案符合赢钱的规定,便算是中了彩。——译者注)第五节考虑试验率是外生的完全理性的贝叶斯学习模型。为了避免在第四节讨论的一些问题,我们在异质大群体中的定态学习的模型中研究这一模型。这个模型也为异质自确认均衡提供了基础。
在这个领域,到目前为止很少被研究的一个显而易见的问题是,在多大程度上可能收敛于纳什均衡的精炼。第六节讨论诺尔德克(Noldeke)和萨缪尔森的工作。他们的工作将一个特定学习过程的随机稳定结果与一类特殊博弈的子博弈精炼均衡(subgame-perfect equilibria)联系起来。
我们以对廉价磋商博弈的讨论为终点,然后转向参与人能够进行“秘密握手”(secret handshake),即一个传递他们将采取某一特定行动的信号的想法(这一想法在第3章讨论过)。我们对研究这个博弈中的进化动态的文献进行一个评论性的回顾,并建议未来对这一问题的研究应该考虑博弈的扩展式特征。
7.4在被比做吃角子老虎机问题的博弈中的学习
给出纳什均衡的局部稳定性以及非纳什均衡的不稳定性的假设条件相当强。特别地,一致非试验条件与多臂吃角子老虎机问题中的贝叶斯最优不一致。在这一节中,我们考虑另外一个给出同样结论的假设条件,并更一般地讨论扩展式博弈中的学习如何与吃角子老虎机问题中的学习不同这一问题。
经典的吃角子老虎机问题是一个简单的单移动、单人、对每一个行动进行随机支付的扩展式博弈。在这个博弈中,某些行动的支付的概率分布是未知的,而且各个行动的支付的分布独立,因此观察一个行动的支付没有披露有关其他行动的支付的概率分布的任何信息。[1]众所周知,即使在吃角子老虎机问题中,一个没有耐心的参与人可能不能最优化:如果相信某一特定的臂是劣等的这一先验信念,则这个臂将不会被尝试,即使它是优等的。实际上,对于任意固定不变的折现因子,在吃角子老虎机问题中试验在有限时间内结束的概率是1。[2]然而,在折现因子趋向于1的极限中,在此期间发生试验的时间的数量趋于无穷,次优选择的概率趋向于0。在前面的几节中,基本的假设是试验永远继续下去。这应该被看做是当折现因子趋向于1时,为了得到折现吃角子老虎机问题的最优行动的极限所做的努力。在本节剩余的部分,我们将用这个极限作为我们喜欢遵循的规则类型的动机。
像我们指出的那样,一致非试验条件与不管是折现还是不折现的吃角子老虎机问题的最优行动都不一致,因为最优行动将典型地涉及在某些历史中以概率1采取一个试验行动。[3]对这个问题有几种答案。将在下面更详细研究的一种可能的答案是,非试验的概率代表在一个匹配设定中与一个不进行试验的对手相遇的概率。另一个可能的答案是完全不要一致非试验的假设条件。弗登伯格和克雷普斯建议,作为替代,修改稳定性的定义以包括如下条件:观察到的行动能够通过某些简单的可交换性和独立性的“统计检验”。这个想法是,如果观察的历史不能通过这些检验,则参与人应该意识到归根结底环境不是渐近可交换的和独立的。然后,弗登伯格和克雷普斯证明了,行动能够收敛于纳什均衡而且满足统计检验,而即使当不要求一致非试验时,行动也既不能够满足统计检验也不能够收敛于非纳什均衡的结果。这个阐述没有解决如果某一参与人不能通过统计检验参与人将如何行动这一问题。[4]
我们接下来检验要求对所有没有被频繁尝试的行动进行试验的最小试验次数条件。当然,在对各种臂的支付是独立分布的经典的吃角子老虎机问题中,这是正确的战略。然而,存在几个说明为什么在一个博弈中这可能不是最优的原因。首先,一个参与人可能有几个行动,每个行动导致所有对手的相同的信息集,于是产生相同的信息。因为这些行动的支付不一定相同,所以假设(而且最优化要求)参与人只对具有最小期望损失的行动进行试验是有意义的。[5]图7—2所示的来自弗登伯格和莱文(1993)的例子表明这会如何发生。假设参
图7—2弗登伯格和莱文的有成本试验的例子与人1给参与人2选择行动l这一事件赋予一个较低的概率。在这种情况下,通过采取行动L可以最大化他的即时期望支付。然而,假设为了获得参与人2的行动的信息,参与人1愿意进行一个有成本的试验。给定参与人1的信念,得到这个信息的最低成本的方法是采取行动R,实际上参与人可能不会采取行动M。[6]
不存在对最小试验次数要求的非常容易的修改,该要求允许试验是最低成本的。然而,下面我们对在定态条件下的贝叶斯学习的讨论考虑了完全最优过程,包括通过同时考虑成本和收益来选择试验这个要求。
关于最小试验次数的试验条件的第二个问题是,我们要求它在所有的信息集中都成立。图7—3所示的来自弗登伯格和克雷普斯(1995b)的例子表明了为什么这是有问题的。假设沿着某个历史,参与人1无限频繁地,但是在时间中所占的比例逐渐减小地选择A1,并假设参与人2开始时具有相对于A3参与人3更可能选择D3的评估。于是,在到达参与人2的信息集的那些时期,参与人2将把A2视为一个有成本但是可能值得的试验。然而,只有当,首先参与人2知道参与人3通常采取行动A3时,另外参与人1给参与人2一个机会去使用通过在不久的将来再次采取行动A2得到的信息时,采取行动A2这一试验才有支付。因为参与人2很少观察到参与人3的行动,所以她应该给参与人3通常采取行动A3这一事件分配不可忽略的概率,因此她应该期望她确实有一些东西要学习。然而,给定参与人1选择行动A1的频率趋向于0,即使是非常有耐心、追求最优的参与人2也可能不会发现对A2做任何试验是值得的。由于这个原因,在每一个信息集中要求最小试验次数条件是没有意义的。
图7—3弗登伯格克雷普斯的最小试验次数的例子
这里指出如下一点是重要的:纳什均衡不要求在每一个信息集中满足最小试验次数的试验条件。实际上,只要在参与人i感到是“经验相关”的信息集中满足最小试验次数条件就足够了——不严谨地说,给定一个无限的历史,如果在时间的充分大的部分中它是可达的以至于“它可能已经到达”,则信息集hi是经验相关的。弗登伯格和克雷普斯(1995b)给出了正式的定义。
粗略地说,这个命题的结论是,每一个对参与人来说至关重要的信息集是无限频繁可达的。应该指出,它允许在图7—3所示的例子中参与人3的信息集只是有限频繁可达的概率为1,因为极限战略组合给参与人2的信息集分配的概率为0。(而且,容易构造对于所有的参与人都满足MME的行为规则,但是这意味着参与人3的信息集只是有限频繁可达的概率为1。)与之相反,如果每个参与人的行为满足最小试验次数的试验条件,则正如我们在命题7.2中指出的那样,参与人3的信息集以概率1无限频繁可达。然而,从命题7.1我们知道,因为参与人2的信息集在极限战略组合中是不可达的,所以参与人2关于随后行动的信念是不重要的。
弗登伯格和克雷普斯证明了,MME条件能够代替最小试验次数的试验条件用来证明命题7.3的结论。特别地,如果信念是强渐近经验主义的,行为满足MME且是在试验上是具有试验次数限制的渐近短视的,每一个参与人使用独立性和可交换性的统计检验或者行为行动满足一致非试验,则行动不能收敛于非纳什均衡的结果。
最后,尽管我们指出对于任何给定的折现因子,在经典的吃角子老虎机问题中的试验应该在有限时间内停止,但是,在扩展式博弈的条件下存在一些历史,沿着这些历史参与人发现即使在长期中以时间的大于零的部分进行试验也是最优的。图7—4所示的例子说明了如果出现某一个没有代表性的样本则可能发生的复杂情况。假设参与人1已经采取行动L和R许多次,而且采取这两个行动的频率相等。假设当参与人1采取行动L、参与人2有一半的时间采取行动w时,它刚好发生,但是当参与人1采取行动R时,参与人2一直采取行动w。因为参与人1知道参与人2有一个信息集,所以他知道参与人2选择行动e的实际概率是1/4。尽管如此,他从来没有实际观察到参与人3的行动,不知道参与人3是否将采取行动u,在这种情况下行动R是最优的;或者参与人3 是否将采取行动d,在这种情况下行动L是最优的。参与人1可能相信的一个先验信念是参与人3可能采取行动d,在这种情况下从短视的观点来看采取行动L是最优的。然而,尽管参与人1进行了大量的观察,仍然有好的理由对R进行试验,因为如果参与人3将采取行动u,对参与人1来说采取行动R是相当有利可图的。这表明渐近短视的假设可能与某些非代表性样本不一致。直观看来,在长期中这样的样本的概率为0。弗登伯格和莱文(1993)在一个密切相关的条件下证明了这一点。
图7—4对没有代表性的样本的例证
7.6“快速学习”模型中的随机调整和后向归纳
本节讨论扩展式博弈中的“快速学习”模型。诺尔德克和萨缪尔森(Noldeke and Samuelson,1993)使用这个模型考察在多大程度上学习过程可能收敛于纳什均衡的精炼。弗登伯格和克雷普斯(1988)确定了几个因素,这几个因素认为沿着这些路径的结论可能需要相当强的假设。第一,信念必须在比第二节定义的相关信息集更大的一类“序列相关”信息集中是正确的,这需要比MME更多的试验。比如说,在完美信息博弈中,所有的信息集是序列相关的,因此在缺乏对支付函数的先验约束的情况下,每一个信息集必须被无限频繁地到达以确保只有后向归纳法得到的解是稳定的。像在图7—3中的讨论表明的那样,这需要即使是在时间的逐渐减小的部分可达的信息集中,参与人也要进行试验。显而易见,即使是富有耐心的参与人也不会选择这样做。[8]第二,从子博弈完美到序贯均衡需要参与人对一个信息集内的各个节点的相对概率有共同的评估,即使问题中考虑的信息集在时间的逐渐减小的部分可达。
在诺尔德克萨缪尔森(1993)中,坎多里迈拉斯罗布类型的分析被应用于参与人在博弈树上的任何路径至多行动一次的博弈中。在这样的博弈中,参与人偏离期望的行动不能表明他可能在随后的信息集中偏离,因此存在各种各样的精炼与之相符。比如说,战略式博弈中的颤抖手完美与代理人—战略式(agentstrategic form)博弈中的颤抖手完美一致。我们在第6章定义的“在可达的节点上可理性化”这一概念对在期望参与人排除的信息集中的行动没有进行限制。这一概念等价于更强的序贯可理性化的概念。序贯可理性化要求在每一个信息集上的“理性”行动。
诺尔德克和萨缪尔森考虑了具有“变异”或者是“替代参与人”的稳定流入的有限群体中的匿名随机匹配模型。这个分析将首先考虑没有这些随机冲击时系统的行为,然后考虑随机冲击出现但是越来越小的系统的行为。在进行这样的分析之后,我们将解释为什么这个系统比在本章前面部分讨论的模型涉及更快地学习。
7.6.1模型
在模型中,有限多个代理人中的每一个代理人用当前的战略和对对立群体的行动的“猜测”来描述。这些猜测采用每一个群体的单一行为战略的形式,因此隐含着我们在第6章中讨论的独立信念假定。进一步假设,每一个参与人的战略相对于他的当前猜测是最优反应,这里代理人的目标是给定他的猜测使他的事前期望支付最大化。这允许一个参与人的战略描述在被参与人的猜测赋予0概率的信息集中的条件被占优行动。在每一个阶段,所有参与人被随机匹配参加博弈。特别地,参与人i的一个给定的代理人与参与人j的一个给定的代理人匹配的概率是某一个下界为0的固定的数。
在一个阶段结束时,每一个代理人学习的概率为μ。一个学习的代理人观察到这个阶段所有匹配中的终结点,并且将他的在对应信息集中的信念重新设定为与该阶段的观察相等的信念。注意:所有学习的代理人在一个阶段结束时具有相同的(而且是正确的)路径上的信念。还应该注意:如果代理人不学习,则他不会改变他的信念,即使这些信念与他在本阶段的匹配中可达的终结点不一致。这是该模型的一个奇特的方面,但是它对于结论似乎并不重要。[9]
于是,代理人修改自己的战略以使得这个战略是对他所有信息集中的猜测的最优反应。假设存在“惯性”,意思是在那些以前选择的行动是对新猜测的一个(可能是多个)最优反应的信息集中,代理人不会改变他的行动。
这个信念修正和战略调整的过程,与坎多里迈拉斯罗布模型中的过程相同。在这个过程中,参与人只使用他们最近的观察而忽略所有以前的观察。这里一个新的特征是在这个阶段到达的信息集中观察到的行动对关于不可达信息集中的行动的信念没有影响这一假设。[10]从贝叶斯学习者的角度来看,这等于假设信念具有定义在每一个信息集中的行动之上的独立分布的积的形式。因此,观察到一个参与人将他的反应转移到一个给定的行动并不表示这个参与人可能已经将他的反应改变为其他的反应。与隐含在对作为战略组合的猜测的系统阐述中的参与人之间的独立性假设相比,这是一个更强的假设。
前面一段定义了“无变异”的调整过程Γ(0)。这个过程的状态空间是集合Θ,这个集合的元素说明了一个战略以及对每个个体代理人的猜测。为了将这个过程扩展到具有变异或替代的过程,假设在每一个阶段每个代理人有λ的概率被另外一个具有任意猜测和相对于这个猜测是最优反应的战略的代理人所替代,假设这个替代在代理人之间是独立的。这些变异产生了一个遍历系统Γ(λ);萨缪尔森和诺尔德克的目标是描述当λ→0时这个遍历分布μλ的极限。
这个系统有两个方面值得特殊的强调。第一,相对于在坎多里迈拉斯罗布模型中考虑的变异,这里变异或者是扰动的集合有点小,因为变异不会采取严格被占优的战略。因此Γ(λ)的转移概率矩阵不是严格正定的。但是,因为所有不被占优的战略具有严格大于零的概率,所以容易看出这个系统确实是遍历的。[11]
第二,变异将是对偏离均衡路径行动进行试验的源泉。而且,因为“所有代理人学习”这一事件的概率在λ→0的极限中无限大于变异的概率,所以相对于每一个代理人只观察到他自己匹配中的结果,模型将产生更多的关于偏离均衡路径的信息。因此,我们应该期望,为了排除非纳什均衡的结果,相对于通常的观察结构,在这个模型中需要更少的试验。这个效果被当参与人学习时他们修改其猜测以便和他们最近的观察相一致这个假设条件强化,因此在这里,单一的试验具有与虚拟行动模型中无限多的试验相同的效果。实际上,我们将看到,在确定长期分布时要考虑的关键问题是“一个单一的参与人i进行试验,然后在所有其他参与人改变他们的行动之前所有参与人改变他们的猜测以便和试验的结果相匹配”。由于这个原因,我们应该期望在这个模型中收敛于非纳什均衡的结果将比在本章前面考虑的模型中更不普遍。这也是为什么我们称这个模型为(相对)“快速学习”的原因。
7.6.2确定性动态
像通常那样,研究的方法是首先解决没有变异时将发生什么这一问题。在这种情况下,有任何单一元素极限集(定态)产生的结果必定是独立的、单一的自确认均衡的结果。为了认识到这一点,我们指出,因为每一个参与人都具有一些最终学习的机会,而且学习的参与人观察到所有匹配中的行动,所以,如果行动被一个单一的结果吸收,则所有的参与人将最终知道这个结果是什么,因此所有的参与人必定在对应路径上的所有信息集中具有正确的猜测。于是,结果必须对应于一个单一的自确认均衡。正如我们在上面指出的那样,假设条件包含了独立性。反过来,任何独立的、单一的自确认均衡对应于一个单一元素极限集。
应该指出,一个给定的自确认均衡能够对应于许多不同的定态,因为在不可达的信息集中实际的行动是任意的,而且只存在对这个偏离均衡路径行动的猜测的弱限制。特别地,如果在定态θ参与人i能够偏离并将行动转移到一个未达到的子博弈,且任何其他参与人的偏离都不能使这个子博弈被达到,则只在除了i以外的其他参与人对该子博弈中的行动的猜测这个方面,与θ不同的任何其他状态θ′也是自确认均衡的,因此也是一个定态。而且,如果只要在定态中参与人2的信息集不会实际达到他们就给参与人2这个移动,则存在定态,在这些定态下一个给定参与人(比如参与人1)的不同代理人正好在他们将得到什么支付方面不一致。这样,即使定态的结果必定是单一的自确认均衡,结果也能够对应于一个没有单一信念的稳定状态。
由于稳定状态的巨大的多样性,列举无扰动系统的所有稳定状态并计算最小阶数的树的强力方法可能相当冗长乏味。然而,正如下面将要证明的那样,因为大量的定态使得变异很容易将行动从一个定态转移到另一个定态,所以我们只需要考虑由单个变异引起的转移,因此这样的计算不是必须的。
7.6.3具有变异的动态
我们现在转移到有变异从而λ>0的情况。我们称一个状态是随机稳定的(stochastically stable),如果它包含在当λ→0时遍历分布μλ的支撑集的极限中。
命题7.5 (Noldeke and Samuelson,1993)如果状态θ是随机稳定的,则吸引域(在Γ(0)中)在一个单一的变异下能够达到的任何稳定状态θ′也是随机稳定的。直观地看,如果一个单一的变异就足以从θ中跳出,则在状态θ中花费的期望时间的阶为1/λ。而且,因为θ′是一个定态,所以在离开该状态前至少发生一次变异。这样,在θ′中花费时间的期望值至少与在状态θ中花费时间的期望值具有相同的阶。
使用这个关于稳定状态的引理,诺尔德克和萨缪尔森提出了存在一个随机稳定结果的必要条件。这就是极限分布集中在导致定义在终结点之上的相同分布的那些状态上。从我们上面的观察可以看出,为了存在一个稳定的结果,必须存在一个对应的状态的集合,所有这些状态都产生这个结果而且没有单一的变异能够导致具有不同结果的状态。
命题7.6 (Noldeke and Samuelson,1993)考虑一个扩展式博弈,在这个博弈中每一个参与人在任何行动的路径上至多行动一次。假设一个结果是随机稳定的,而且在一些具有该结果的随机稳定状态上参与人i能够偏离并将行动转移到某一个子博弈上。则该子博弈没有一个自确认均衡能够给参与人i比他在随机稳定结果中得到的支付更高的支付。
证明的梗概 令z是由随机稳定集Θ*产生的一个随机稳定的结果。第一步是检验Θ*中的每一个状态都是定态从而是自确认的。(这个想法是Γ(0)的非单一元素极限集必须包含具有至少两个不同结果的状态。)接下来假设在结果z处存在一个参与人i,他能够采取一个将行动转移到子博弈G(a)中的行动a,这个子博弈具有一个自确认均衡σ,而这个自确认均衡能够给这个参与人比他在结果z中得到的支付更多的支付。固定随机稳定状态θ′,并考虑在G(a)之外的所有信息集中所有参与人的战略和猜测都与θ′一致的状态θ。在状态θ参与人i具有和在状态θ′中一样的战略和猜测,且所有在G(a)中具有一个信息集的参与人的战略和猜测与σ对应。因为θ′对应于一个自确认均衡,所以θ也对应于一个自确认均衡。
现在考虑一个使参与人i的一个代理人进入这个子博弈的变异,并假定参与人i的所有学习都发生在任何其他参与人类型的任何代理人之前,发生在任何进一步的变异之前。这将系统发送到一个新的状态,这个状态的结果是z′,与我们开始时假定的结果z不同。而且,因为在G(a)中的行动是这个子博弈的自确认均衡,所以学习机制不能进一步调整这个子博弈中的行动或猜测。因为在这个子博弈中参与人i的支付大于在初始结果z中的支付,因为在结果z中参与人i能够强迫行动进入这个子博弈,所有在z′开始的学习过程不能使系统回到结果z。因为一个单一的变异就足以使系统偏离z,而且回到z至少需要一个变异,所以z不可能是受扰动系统的遍历分布的支撑集中的惟一结果。(证明结束)
推论7.1 在一个具有观察到的行动的多阶段博弈中,每一个参与人在任何一个行动路径中至多行动一次,则任何随机稳定的结果必定是一个子博弈完美均衡。[12]
证明 从命题6.4可知,在多阶段博弈中,每一个具有独立信念的单一自确认均衡具有与纳什均衡相同的结果。于是命题7.6和事实“每一个随机稳定的结果是自确认的”意味着一个随机稳定的结果必须是一个具有额外性质的纳什均衡的结果。这个额外性质就是没有一个参与人能够偏离并将行动转移到一个在某个自确认均衡中参与人将得到更高支付的子博弈中。从“任何子博弈的每一个子博弈完美均衡都是自确认的”这个事实可以得出推论中的结论。(证明结束)
这些结论有三个方面值得强调。第一,在技术层面上,这个证明被事实“一个单一的变异足以离开许多稳定状态的吸引域”极大地简化。在随后的关于“筛选”模型的学习动态的论文中,诺尔德克和萨缪尔森使用了相同的证明技巧。由于一个学习的参与人观察到所有匹配中的行动这个假设条件,这个技巧在这些文章中是有用的。这样,在这两个模型中关键的事件是“由一个给定的学习的参与人的所有代理人产生的一个在以前没有使用的行动上的单一变异”。学习过程的特征意味着在以前没有使用的行动上的一个单一变异能够有戏剧性的后果。
从这篇文章开始,这个技巧一直没有被扩展到其他类型的学习过程。然而,这些文章提出的第二个、更一般的观点是:扩展式博弈中的动态应该被期望比具有严格均衡的静态博弈中的动态对各种形式的噪声和扰动的形式更敏感。我们期望这个观点在更一般的情况下也成立。
第三,相关地,对扰动的敏感性表明许多博弈将没有随机稳定的结果。这能够从命题76的强度中看出,并在图7—5中被解释。图7—5是一个三人“蜈蚣”博弈(threeplayer“centipede”game),在这个博弈中参与人一个接一个地在G(走)和S(停止)之间选择。如果任何一个参与人选择S,则博弈结束,并且不管在什么情况下博弈在参与人3行动之后结束。惟一的子博弈完美均衡是(G,S,S),其结果为(G,S)。战略组合(G,S,G)具有相同的结果。如果(G,S,S)在随机稳定集中,则(G,S,G)也必须在随机稳定集中。但是,在对应于(G,S,G)的所有参与人3采取行动G的状态中,如果所有的参与人2同时学习而所有的参与人1不同时学习,则状态转移到(G,G,G)。假设在随后的阶段,所有的参与人1学习而其他参与人不学习。这一系列只依赖于“学习”的事件在无扰动无变异动态中的概率大于零,并导致结果为S的定态(S,G,G),所以结果(G,S)是不稳定的。
图7—5三人“蜈蚣”博弈
与这个例子相反,假设子博弈完美均衡给所有的参与人比在任何其他结果中更高的支付。在这种情况下,结果(G,S)是稳定的。诺尔德克和萨缪尔森证明了一个比之稍强的定理。考虑在一个完美信息博弈中的子博弈完美均衡的结果。这个结果是惟一的随机稳定结果,如果没有参与人具有能够将行动转移到一个子博弈中的行动,而在该子博弈中某个终结点能够给这个参与人比他在均衡中得到的支付更高的支付。
因为这个假设不可能满足,所以“单个点是随机稳定的”这个定义没有用。我们能够从中得到的结论是接受“极限集可能不是单个点”这一思想。
扫码加好友,拉您进群
    
    

收藏
