全部版块 我的主页
论坛 休闲区 十二区 休闲灌水
4858 11
2006-12-09

中国人民大学出版社

内容简介:

  在经济学中,绝大多数的非合作博弈理论集中研究博弈中的均衡问题,尤其是纳什均衡及其精炼。对均衡什么时候出现以及为什么均衡会出现,传统解释是,均衡是在博弈的规则、参与人的理性以及参与人的支付函数都是共同知识的情况下,由参与人的分析和自省所得出的结果。不论是在概念上还是在实证上,这个理论都存在许多问题。
  在《博弈学习理论》一书中,朱·弗登伯格和戴维·K·莱文提出了另一种解释:均衡是并非完全理性的参与人随时间的推移寻求最优化这一过程的长期结果。他们研究的模型为均衡理论提供了基础,并为经济学家评价和改进传统的均衡概念提供了有用的方法。
作者简介:
  朱·弗登伯格是哈佛大学的经济学教授。黛维·K·莱文是加利福尼亚大学洛杉矶分校的经济学教授。

点 评
  本书收集了博弈学习和演进理论的前沿领域中的主要现有成果,以及该领域两位权威学者的新成果。对于任何从事学习理论和博弈理论研究或在应用研究中使用演进博弈理论的人来说,这本书将是必不可少的。
      ——拉里·萨缪尔森、安托万·奥古斯丁·库诺特经济学教授 威斯康星大学

  对经济理论和博弈理论中的演进和学习领域做出杰出贡献的两位学者所写的这本优秀著作,内容非常广泛。它对于高年级本科生、研究生和理论工作者将非常有用。
      ——埃迪·德科尔 西北大学

  本书巧妙地介绍了博弈学习和演进理论中近些年来提出的大量模型,同时对这些模型进行了非常精细的解释,并用例子加以说明,将这些模型相互联系在一起。
      ——尤根·W·威布尔 经济系 斯德哥尔摩经济学院

人大网上书店:http://club.crup.cn


[推荐]博弈学习理论(by 弗登伯格)

[此贴子已经被作者于2006-12-10 0:58:27编辑过]

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2007-4-20 14:55:00

目录:

书名: 博弈学习理论(当代世界学术名著·经济学系列)

书号: F1812

ISBN 7-300-05747-0

作者: []朱·弗登伯格

1章 引论
1.1
 前言
1.2
 大群体模型和匹配模型
1.3
 三个常用的学习和/或进化模型
1.4
 库诺特调整
1.5
 库诺特动态分析
1.6
 具有锁定功能的库诺特过程
1.7
 回顾同时行动有限博弈
附录:动态系统和局部稳定性
参考文献
  第2章 虚拟行动
2.1
 引言
2.2
 两人虚拟行动
2.3
 虚拟行动中的渐近行动
2.4
 对虚拟行动中循环的解释
2.5
 多人虚拟行动
2.6
 虚拟行动的支付
2.7
 两战略博弈中的一致性和相关均衡
2.8
 虚拟行动和最优反应动态
2.9
 虚拟行动的一般化
附录:狄利克雷先验和多项抽样
参考文献
  第3章 模仿者动态和相关的确定性进化模型
3.1
 引言
3.2
 同质群体中的模仿者动态
3.3
 同质群体模仿者动态的稳定性
3.4
 进化稳定战略
3.5
 非对称模仿者动态模型
3.6
 对模仿者动态方程的解释
3.7
 模仿者动态的一般化和重复剔除严格劣战略
3.8
 短视调整动态
3.9
 集值极限点和漂移
3.10
 廉价磋商和秘密握手
3.11
 离散时间模仿者系统
附录:刘维尔(Liouville)定理
参考文献
  第4章 随机虚拟行动和混合战略均衡
4.1
 引言
4.2
 收敛的概念
4.3
 渐近短视和渐近经验主义
4.4
 随机扰动支付与平滑最优反应
4.5
 平滑虚拟行动和随机逼近
4.6
 部分抽样
4.7
 普遍一致性和平滑虚拟行动
4.8
 刺激反应和作为学习模型的虚拟行动
4.9
 对战略空间的学习
附录:随机逼近理论
参考文献
  第5章 具有持续随机性的调整模型
5.1
 引言
5.2
 回顾随机调整模型
5.3
 坎多里迈拉斯罗布(Kandori Mailath Rob)模型
5.4
 讨论其他动态
5.5
 局部相互作用
5.6
 吸引域的半径和协半径
5.7
 修正的协半径
5.8
 具有异质群体的一致随机匹配
5.9
 随机模仿者动态
附录A:有限马尔可夫链的回顾
附录B:随机稳定分析
参考文献
  第6章 扩展式博弈和自确认均衡
6.1
 引言
6.2
 一个例子
6.3
 扩展式博弈
6.4
 一个简单的学习模型
6.5
 自确认均衡的稳定性
6.6
 异质的自确认均衡
6.7
 一致自确认均衡
6.8
 一致自确认均衡与纳什均衡
6.9
 可理性化的自确认均衡和关于对手支付的先验信息
参考文献
  第7章 纳什均衡,大群体模型和扩展式博弈中的变异
7.1
 引言
7.2
 相关信息集和纳什均衡
7.3
 外生试验
7.4
 在被比做吃角子老虎机问题的博弈中的学习
7.5
 定态学习
7.6
 快速学习模型中的随机调整和后向归纳
7.7
 廉价磋商博弈中的变异和快速学习
7.8
 试验和期限的长度
附录:吃角子老虎机问题回顾
参考文献
  第8章 老练学习
8.1
 引言
8.2
 条件学习的三个范例
8.3
 老练学习的贝叶斯方法
8.4
 绝对连续条件的解释
8.5
 选择专家
8.6
 条件学习
8.7
 折现
8.8
 分类策略和循环
8.9
 内省的分类规则,校准和相关均衡
8.10
 模式识别中的索斯诺模型
8.11
 操纵学习程序
参考文献
索引

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-4-20 14:55:00

7 纳什均衡,大群体模型和扩展式博弈中的变异

7.1引言

正如我们已经看到的那样,不存在扩展式博弈中的简单学习会导致纳什均衡结果的假定,即使当学习过程收敛时也是如此。然而,如果一个收敛的学习过程产生“足够的”对偏离均衡路径的学习,则该学习过程将收敛于纳什均衡的结果。本章研究有多少信息是“足够的”以及哪种力量可能导致有“足够的”可以利用的信息等相关问题。当我们讨论一些解释时,我们研究的中心问题是如下的思想:为了得到他们的对手如何对这些很少被采取的行动做出反应的信息,参与人有时会故意采取不能最大化当期期望支付的行动来“试验”。

作为本章的第一步,我们处理如下问题,即为了排除除了纳什均衡之外的结果,到底多少关于对手行动的信息是“足够的”。纳什均衡的通常的定义意味着参与人知道他们对手使用的整个战略组合,或者等价的,知道会在任何一个信息集中出现的行动的概率分布。然而,这些知识比必需的知识要多,因为一个给定参与人关于在某些信息集中的行动的信念可能对他如何选择行动毫无影响。实际上,参与人在与他“相关的”信息集上有正确的信念就足够了。我们将在本章第二节中系统地阐述这一思想。

第三节研究了能够导致纳什均衡的外生规定的行为(按照虚拟行动的思想)上的充分条件。第四节检验这些假定,它们可以如何被放松以及博弈中的学习和多臂吃角子老虎机问题(mutli-armed bandit problelms)中的学习之间的联系。(这是最常见的赌博游戏。吃角子老虎机又称作“独臂强盗”,其赌法非常简单,只需将筹码投进投币口,然后拉动手柄或单击“旋转”按钮,角子机器便开始转动,如果转动停止的时候,图案符合赢钱的规定,便算是中了彩。——译者注)第五节考虑试验率是外生的完全理性的贝叶斯学习模型。为了避免在第四节讨论的一些问题,我们在异质大群体中的定态学习的模型中研究这一模型。这个模型也为异质自确认均衡提供了基础。

在这个领域,到目前为止很少被研究的一个显而易见的问题是,在多大程度上可能收敛于纳什均衡的精炼。第六节讨论诺尔德克(Noldeke)和萨缪尔森的工作。他们的工作将一个特定学习过程的随机稳定结果与一类特殊博弈的子博弈精炼均衡(subgame-perfect equilibria)联系起来。

我们以对廉价磋商博弈的讨论为终点,然后转向参与人能够进行“秘密握手”(secret handshake),即一个传递他们将采取某一特定行动的信号的想法(这一想法在第3章讨论过)。我们对研究这个博弈中的进化动态的文献进行一个评论性的回顾,并建议未来对这一问题的研究应该考虑博弈的扩展式特征。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-4-20 14:59:00

7.4在被比做吃角子老虎机问题的博弈中的学习

给出纳什均衡的局部稳定性以及非纳什均衡的不稳定性的假设条件相当强。特别地,一致非试验条件与多臂吃角子老虎机问题中的贝叶斯最优不一致。在这一节中,我们考虑另外一个给出同样结论的假设条件,并更一般地讨论扩展式博弈中的学习如何与吃角子老虎机问题中的学习不同这一问题。

经典的吃角子老虎机问题是一个简单的单移动、单人、对每一个行动进行随机支付的扩展式博弈。在这个博弈中,某些行动的支付的概率分布是未知的,而且各个行动的支付的分布独立,因此观察一个行动的支付没有披露有关其他行动的支付的概率分布的任何信息。[1]众所周知,即使在吃角子老虎机问题中,一个没有耐心的参与人可能不能最优化:如果相信某一特定的臂是劣等的这一先验信念,则这个臂将不会被尝试,即使它是优等的。实际上,对于任意固定不变的折现因子,在吃角子老虎机问题中试验在有限时间内结束的概率是1。[2]然而,在折现因子趋向于1的极限中,在此期间发生试验的时间的数量趋于无穷,次优选择的概率趋向于0。在前面的几节中,基本的假设是试验永远继续下去。这应该被看做是当折现因子趋向于1时,为了得到折现吃角子老虎机问题的最优行动的极限所做的努力。在本节剩余的部分,我们将用这个极限作为我们喜欢遵循的规则类型的动机。

像我们指出的那样,一致非试验条件与不管是折现还是不折现的吃角子老虎机问题的最优行动都不一致,因为最优行动将典型地涉及在某些历史中以概率1采取一个试验行动。[3]对这个问题有几种答案。将在下面更详细研究的一种可能的答案是,非试验的概率代表在一个匹配设定中与一个不进行试验的对手相遇的概率。另一个可能的答案是完全不要一致非试验的假设条件。弗登伯格和克雷普斯建议,作为替代,修改稳定性的定义以包括如下条件:观察到的行动能够通过某些简单的可交换性和独立性的“统计检验”。这个想法是,如果观察的历史不能通过这些检验,则参与人应该意识到归根结底环境不是渐近可交换的和独立的。然后,弗登伯格和克雷普斯证明了,行动能够收敛于纳什均衡而且满足统计检验,而即使当不要求一致非试验时,行动也既不能够满足统计检验也不能够收敛于非纳什均衡的结果。这个阐述没有解决如果某一参与人不能通过统计检验参与人将如何行动这一问题。[4

我们接下来检验要求对所有没有被频繁尝试的行动进行试验的最小试验次数条件。当然,在对各种臂的支付是独立分布的经典的吃角子老虎机问题中,这是正确的战略。然而,存在几个说明为什么在一个博弈中这可能不是最优的原因。首先,一个参与人可能有几个行动,每个行动导致所有对手的相同的信息集,于是产生相同的信息。因为这些行动的支付不一定相同,所以假设(而且最优化要求)参与人只对具有最小期望损失的行动进行试验是有意义的。[5]图72所示的来自弗登伯格和莱文(1993)的例子表明这会如何发生。假设参

图7—2弗登伯格和莱文的有成本试验的例子
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-4-20 15:01:00

与人1给参与人2选择行动l这一事件赋予一个较低的概率。在这种情况下,通过采取行动L可以最大化他的即时期望支付。然而,假设为了获得参与人2的行动的信息,参与人1愿意进行一个有成本的试验。给定参与人1的信念,得到这个信息的最低成本的方法是采取行动R,实际上参与人可能不会采取行动M。[6

不存在对最小试验次数要求的非常容易的修改,该要求允许试验是最低成本的。然而,下面我们对在定态条件下的贝叶斯学习的讨论考虑了完全最优过程,包括通过同时考虑成本和收益来选择试验这个要求。

关于最小试验次数的试验条件的第二个问题是,我们要求它在所有的信息集中都成立。图73所示的来自弗登伯格和克雷普斯(1995b)的例子表明了为什么这是有问题的。假设沿着某个历史,参与人1无限频繁地,但是在时间中所占的比例逐渐减小地选择A1,并假设参与人2开始时具有相对于A3参与人3更可能选择D3的评估。于是,在到达参与人2的信息集的那些时期,参与人2将把A2视为一个有成本但是可能值得的试验。然而,只有当,首先参与人2知道参与人3通常采取行动A3时,另外参与人1给参与人2一个机会去使用通过在不久的将来再次采取行动A2得到的信息时,采取行动A2这一试验才有支付。因为参与人2很少观察到参与人3的行动,所以她应该给参与人3通常采取行动A3这一事件分配不可忽略的概率,因此她应该期望她确实有一些东西要学习。然而,给定参与人1选择行动A1的频率趋向于0,即使是非常有耐心、追求最优的参与人2也可能不会发现对A2做任何试验是值得的。由于这个原因,在每一个信息集中要求最小试验次数条件是没有意义的。

73弗登伯格克雷普斯的最小试验次数的例子

这里指出如下一点是重要的:纳什均衡不要求在每一个信息集中满足最小试验次数的试验条件。实际上,只要在参与人i感到是“经验相关”的信息集中满足最小试验次数条件就足够了——不严谨地说,给定一个无限的历史,如果在时间的充分大的部分中它是可达的以至于“它可能已经到达”,则信息集hi是经验相关的。弗登伯格和克雷普斯(1995b)给出了正式的定义。

粗略地说,这个命题的结论是,每一个对参与人来说至关重要的信息集是无限频繁可达的。应该指出,它允许在图73所示的例子中参与人3的信息集只是有限频繁可达的概率为1,因为极限战略组合给参与人2的信息集分配的概率为0。(而且,容易构造对于所有的参与人都满足MME的行为规则,但是这意味着参与人3的信息集只是有限频繁可达的概率为1。)与之相反,如果每个参与人的行为满足最小试验次数的试验条件,则正如我们在命题7.2中指出的那样,参与人3的信息集以概率1无限频繁可达。然而,从命题7.1我们知道,因为参与人2的信息集在极限战略组合中是不可达的,所以参与人2关于随后行动的信念是不重要的。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-4-20 15:02:00

弗登伯格和克雷普斯证明了,MME条件能够代替最小试验次数的试验条件用来证明命题7.3的结论。特别地,如果信念是强渐近经验主义的,行为满足MME且是在试验上是具有试验次数限制的渐近短视的,每一个参与人使用独立性和可交换性的统计检验或者行为行动满足一致非试验,则行动不能收敛于非纳什均衡的结果。

最后,尽管我们指出对于任何给定的折现因子,在经典的吃角子老虎机问题中的试验应该在有限时间内停止,但是,在扩展式博弈的条件下存在一些历史,沿着这些历史参与人发现即使在长期中以时间的大于零的部分进行试验也是最优的。图74所示的例子说明了如果出现某一个没有代表性的样本则可能发生的复杂情况。假设参与人1已经采取行动LR许多次,而且采取这两个行动的频率相等。假设当参与人1采取行动L、参与人2有一半的时间采取行动w时,它刚好发生,但是当参与人1采取行动R时,参与人2一直采取行动w。因为参与人1知道参与人2有一个信息集,所以他知道参与人2选择行动e的实际概率是1/4。尽管如此,他从来没有实际观察到参与人3的行动,不知道参与人3是否将采取行动u,在这种情况下行动R是最优的;或者参与人3 是否将采取行动d,在这种情况下行动L是最优的。参与人1可能相信的一个先验信念是参与人3可能采取行动d,在这种情况下从短视的观点来看采取行动L是最优的。然而,尽管参与人1进行了大量的观察,仍然有好的理由对R进行试验,因为如果参与人3将采取行动u,对参与人1来说采取行动R是相当有利可图的。这表明渐近短视的假设可能与某些非代表性样本不一致。直观看来,在长期中这样的样本的概率为0。弗登伯格和莱文(1993)在一个密切相关的条件下证明了这一点。

74对没有代表性的样本的例证

7.6“快速学习”模型中的随机调整和后向归纳

本节讨论扩展式博弈中的“快速学习”模型。诺尔德克和萨缪尔森(Noldeke and Samuelson,1993)使用这个模型考察在多大程度上学习过程可能收敛于纳什均衡的精炼。弗登伯格和克雷普斯(1988)确定了几个因素,这几个因素认为沿着这些路径的结论可能需要相当强的假设。第一,信念必须在比第二节定义的相关信息集更大的一类“序列相关”信息集中是正确的,这需要比MME更多的试验。比如说,在完美信息博弈中,所有的信息集是序列相关的,因此在缺乏对支付函数的先验约束的情况下,每一个信息集必须被无限频繁地到达以确保只有后向归纳法得到的解是稳定的。像在图73中的讨论表明的那样,这需要即使是在时间的逐渐减小的部分可达的信息集中,参与人也要进行试验。显而易见,即使是富有耐心的参与人也不会选择这样做。[8]第二,从子博弈完美到序贯均衡需要参与人对一个信息集内的各个节点的相对概率有共同的评估,即使问题中考虑的信息集在时间的逐渐减小的部分可达。

在诺尔德克萨缪尔森(1993)中,坎多里迈拉斯罗布类型的分析被应用于参与人在博弈树上的任何路径至多行动一次的博弈中。在这样的博弈中,参与人偏离期望的行动不能表明他可能在随后的信息集中偏离,因此存在各种各样的精炼与之相符。比如说,战略式博弈中的颤抖手完美与代理人—战略式(agentstrategic form)博弈中的颤抖手完美一致。我们在第6章定义的“在可达的节点上可理性化”这一概念对在期望参与人排除的信息集中的行动没有进行限制。这一概念等价于更强的序贯可理性化的概念。序贯可理性化要求在每一个信息集上的“理性”行动。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群