全部版块 我的主页
论坛 经济学论坛 三区 博弈论
7563 1
2016-05-28

不完全信息静态博弈的纯策略纳什均衡


王羹渊

   下面对贝叶斯博弈的纯策略概念进行详细说明,有助于那些学《博弈论》课程的研究生透彻理解这个概念。

    n个人参与的不完全信息静态博弈又称为贝叶斯博弈,可以表示成下面的集合:

G={A1,A2,…,An;T1,T2,…,Tn;p1,p2,…,pn;U1,U2,…,Un}

    其中Ai表示第i个参与人的行动集合,Ti表示第i个人的类型集合,pi表示第i个人对于其他参与人类型分布的信念pi(t-i|ti),本质上是参与人i在得知自己类型之后对于其他参与人类型的后验性条件概率。海萨尼假定所有参与人类型的联合分布是一个共同知识,这是计算每个人后验性条件概率的基础。

    在较为简单的情况之下,不考虑参与人的战略依赖于其他参与人的战略或行动,也即不考虑参与人的相机行动战略,而只考虑参与人的类型依赖战略。贝叶斯博弈的一个纯策略是从类型空间到行动空间的一个映射,所有的纯策略组合参与人的纯策略空间,即从参与人类型空间到行动空间的所有映射所构成的集合,数学上一般用符号表示成AiTi,即Ai的Ti次方。一般情况下BA={f|f是从A到B的映射},而BA的势等于|BA|=|B||A|。

    这样一来,根据Ti和Ai是离散集合还是连续统集合,就可以把纯策略分为四种类型,可由下表表示:

表1 贝叶斯博弈纯策略的四种情况

行动集合

离散集合

连续统

类型集合

离散集合

(1)

(2)

连续统

(3)

(4)


    下面用四个例子来说明上面四种纯策略的情况,这里只进行定义不计算贝叶斯均衡,主要是进行概念澄清。

   (1)性别战,设一个男孩与女孩刚认识不久,相互不十分了解对方对于电影的偏好类型,设自然确定了男孩杰克(i=1)有两种类型,一种是喜欢动作片胜于爱情片,概率为p,另一种是喜欢爱情片胜于动作片,概率为1-p。自然设定女孩杰西(i=2)也有两种类型,一种是喜欢动作片胜于爱情片,概率为q,另一种是喜欢爱情片胜于动作片,概率为1-q。但双方都只了解自己的类型,并不知道对方的类型。双方在下班之后要同时决定去电影院看电影,去动作片影房还是去爱情片影房,即他们的行动集合空间都是{看动作片,看爱情片}。

    为简单计,设两人作为恋人去同一个影房看同一部电影的效用要大于分开看电影的效用,否则就不用谈恋爱了。但每种类型的人看自己偏好的影片时效用更高,设每种类型的人在一起看自己偏好的电影的效用值为8,一起看自己不喜欢的电影时效用值为6,单独看自己偏好的电影时效用值为4,单独看自己不喜欢的电影时效用值为2。

    这个博弈可以用扩展形式表示如下:

    其中1PA2PA=pq表示杰克更喜欢动作片且杰西更喜欢动作片的概率是pq;其中1PA2PL=p(1-q)表示杰克更喜欢动作片且杰西更喜欢爱情片的概率是p(1-q);其中1PL2PA=(1-p)q表示杰克更喜欢爱情片且杰西更喜欢动作片的概率是(1-p)q;其中1PL2PL=(1-p)(1-q)表示杰克更喜欢爱情片且杰西更喜欢动作片的概率是(1-p)(1-q)。

   


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-5-28 09:36:39
我们来看每个人的贝叶斯博弈纯策略空间,都是下述集合:
    Si={f|f是从集合Ti={更喜欢动作片PA,更喜欢爱情片PL}到集合Ai={看动作片A,看爱情片L}的映射}
={看动作片A,看爱情片L}{更喜欢动作片PA,更喜欢爱情片PL},i=1,2。
    其中PA=preferaction movie,PL=prefer love movie。
    显然这个纯策略空间中有22=4个元素,或者说存在四个纯策略,即下表中表示的四个映射

  

2 类型空间与行动空间都是离散集合的纯策略

  

定义域Ti

靶集Ai

Si1

更喜欢动作片PA

看动作片A

更喜欢爱情片PL

看动作片A

Si2

更喜欢动作片PA

看动作片A

更喜欢爱情片PL

看爱情片L

Si3

更喜欢动作片PA

看爱情片L

更喜欢爱情片PL

看动作片A

Si4

更喜欢动作片PA

看爱情片L

更喜欢爱情片PL

看爱情片L



    其中Si3表示在类型是“更喜欢看动作片”时,选择看爱情片,在类型是“更喜欢看爱情片”时,选择看动作片。其它纯策略的含义以此类推。

    两个人都有四个纯策略,于是这个博弈写成标准矩阵型就是下面的博弈矩阵。

  

3 类型空间与行动空间都是离散集合的贝叶斯博弈的标准型

  

杰西

S21

S22

S23

S24

杰克

S11

6+2p

  

6+2q

2+2p+4q

  

4+4q

6+2p-4q

  

6-4q

2+2p

  

4-2q

S12

4+4p

  

2+4p+2q

8-4p-4q+8pq

  

8-4p-4q+8pq

4+4p+4q-8pq

  

2+4p+4q-8pq

8-4p

  

8-4p-2q

S13

6-4p

  

6-4p+2q

2+4p+4q-8pq

  

4+4p+4q-8pq

6-4p-4q+8pq

  

6-4p-4q+8pq

2+4p

  

4+4p-2q

S14

4-2p

  

2+2q

8-2p-4q

  

8-4q

4-2p+4q

  

2+4q

8-2p

  

8-2q


    其中每一个纯策略组合中的支付的计算方法是这样的,以S12和S23组合为例,S12表示参与人1杰克是喜欢动作片时选择看动作片,喜欢爱情片时选择看爱情片,而S23表示参与人2杰西在喜欢动作片时看言性,喜欢爱情片时看动作片。于是在博弈的扩展示中,在1PA2PA一支,杰克选A,而杰西选L,其概率为pq,相应支付向量为(4,2);在1PA2PL一支,杰克选A,而杰西选A,其概率为p(1-q),相应支付向量为(8,6);在1PL2PA一支,杰克选L,而杰西选L,其概率为(1-p)q,相应支付向量为(8,6);在1PL2PL一支,杰克选AL,而杰西选A,其概率为(1-p)(1-q),相应支付向量为(4,2)。于是杰克的期望支付为
4pq+8p(1-q)+8(1-p)q+4(1-p)(1-q)= 4+4p+4q-8pq
    杰西的期望支付为
2pq+6p(1-q)+6(1-p)q+2(1-p)(1-q)= 2+4p+4q-8pq
    其它组合的支付向量可以用类似方法进行计算。
    如果直接对上述标准型求解,由于p和q同时在[0,1]之间变化,大小比较较为复杂,为简单计,设p=q=0.5,则上述博弈矩阵成为下面的矩阵。

  

4 类型空间与行动空间都是离散集合的贝叶斯博弈的标准型(p=q=0.5

  

杰西

S21

S22

S23

S24

杰克

S11

77

5,6

5,4

3,3

S12

65

66

6,4

65

S13

45

4,6

4,4

45

S14

33

5,6

5,4

77



    可见有三个纯策略贝叶斯纳什均衡,即(S11,S21),(S12,S22),(S14,S24)。
    其中(S11,S21)表示两人无论偏好如何,都选择看动作片,(S14,S24)表示两人无论偏好如何,都选择看爱情片。(S12,S22)表示两人都按照自己的偏好选择看的电影类型。从支付值可以看出,两人不顾自己的偏好坚持与对方在一起看电影的纯策略贝叶斯纳什均衡能够得到最高的期望收益。而两人如果坚持按照自己的偏好看电影,则可能由于偏好不同导致不能在一起看电影而使得期望收益反而减少。但从表4可以看出,两人都按照自己的偏好选择电影的策略比除总保持双方一起看电影的策略组合(S11,S21)、(S14,S24)之外的其它策略要优越。
    (2)古诺模型。设厂商1为低成本的概率为p,为高成本的概率为1-p,厂商2为低成本的概率为q,为高成本的概率为1-q。市场需求为P=a-Q,Q=Q1+Q2是总产量。设厂商i在低成本时的成本函数为CiQi,在高成本时的成本函数为DiQi。
    两个厂商的类型空间是Ti={低成本L,高成本H},而两个厂商的行动空间则是[0,a]。
    设厂商1为低成本,则其期望利润
p1L(Q1L)=q(a-Q1L-Q2L-C1)Q1L+(1-q)(a-Q1L-Q2H -C1)Q1L
    厂商1若为高低本,则其期望利润为
      p1H(Q1H)=q(a-Q1H-Q2L-D1)*Q1H+(1-q)(a-Q1H-Q2H -D1)Q1H
    设厂商2为低成本,则其期望利润
p2L(Q2L)=p(a-Q1L-Q2L-C2)Q2L+(1-p) (a-Q1H-Q2L -C2)Q2L
     厂商2若为高低本,则其期望利润为
      p2H(Q2H)=p(a-Q1L-Q2H -D2)Q2H+(1-p)(a-Q1H-Q2H -D2)Q2H
    上述四个期望的一阶条件分别如下
-(1-q)Q1L-qQ1L+(1-q)(a-C1-Q1L-Q2H)+q(a-C1-Q1L-Q2L)=0
-(1-q)Q1H-qQ1H+(1-q)(a-D1-Q1H-Q2H)+q(a-D1-Q1H-Q2L)=0
(1-p)(a-C2-Q1H-Q2L)+p(a-C2-Q1L-Q2L)-(1-p)Q2L-pQ2L=0
(1-p)(a-D2-Q1H-Q2H)+p(a-D2-Q1L-Q2H)-(1-p)Q2H-pQ2H=0
    上面有四个方程,求解结果如下:
Q1L=(2a-3C1-D1+2D2-C1p+D1p+2C2q-2D2q)/6
Q1H=(2a-4D1+2D2-C1p+D1p+2C2q-2D2q)/6
Q2L=(2a-3C2+2D1-D2+2C1p-2D1p-C2q+D2q)/6
Q2H=(2a+2D1-4D2+2C1p-2D1p-C2q+D2q)/6

    这即是纯策略贝叶斯纳什均衡。这里的结果表明,无论是低成本厂商还是高成本厂商,都必须同时考虑自己和对方分别是低成本和高成本时的情况,而且双方都要考虑对方对自己的类型分布的信念。
Q1L-Q1H=(D1-C1)/2
Q2L-Q2H=(D2-C2)/2
    可见,低成本厂商的产量比高成本厂商的产量要大。
(类型为连续集合行动为离散集合的情况(3)和类型空间和行动空间都为连续集合的情况(4)待续)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群