我们来看每个人的贝叶斯博弈纯策略空间,都是下述集合:
Si={f|f是从集合Ti={更喜欢动作片PA,更喜欢爱情片PL}到集合Ai={看动作片A,看爱情片L}的映射}
={看动作片A,看爱情片L}{更喜欢动作片PA,更喜欢爱情片PL},i=1,2。
其中PA=preferaction movie,PL=prefer love movie。
显然这个纯策略空间中有22=4个元素,或者说存在四个纯策略,即下表中表示的四个映射
| 表2 类型空间与行动空间都是离散集合的纯策略 |
| 定义域Ti | 靶集Ai |
Si1 | 更喜欢动作片PA | 看动作片A |
更喜欢爱情片PL | 看动作片A |
Si2 | 更喜欢动作片PA | 看动作片A |
更喜欢爱情片PL | 看爱情片L |
Si3 | 更喜欢动作片PA | 看爱情片L |
更喜欢爱情片PL | 看动作片A |
Si4 | 更喜欢动作片PA | 看爱情片L |
更喜欢爱情片PL | 看爱情片L |
其中Si3表示在类型是“更喜欢看动作片”时,选择看爱情片,在类型是“更喜欢看爱情片”时,选择看动作片。其它纯策略的含义以此类推。
两个人都有四个纯策略,于是这个博弈写成标准矩阵型就是下面的博弈矩阵。
| 表3 类型空间与行动空间都是离散集合的贝叶斯博弈的标准型 |
| 杰西 |
S21 | S22 | S23 | S24 |
杰克 | S11 | 6+2p 6+2q | 2+2p+4q 4+4q | 6+2p-4q 6-4q | 2+2p 4-2q |
S12 | 4+4p 2+4p+2q | 8-4p-4q+8pq 8-4p-4q+8pq | 4+4p+4q-8pq 2+4p+4q-8pq | 8-4p 8-4p-2q |
S13 | 6-4p 6-4p+2q | 2+4p+4q-8pq 4+4p+4q-8pq | 6-4p-4q+8pq 6-4p-4q+8pq | 2+4p 4+4p-2q |
S14 | 4-2p 2+2q | 8-2p-4q 8-4q | 4-2p+4q 2+4q | 8-2p 8-2q |
其中每一个纯策略组合中的支付的计算方法是这样的,以S12和S23组合为例,S12表示参与人1杰克是喜欢动作片时选择看动作片,喜欢爱情片时选择看爱情片,而S23表示参与人2杰西在喜欢动作片时看言性,喜欢爱情片时看动作片。于是在博弈的扩展示中,在1PA2PA一支,杰克选A,而杰西选L,其概率为pq,相应支付向量为(4,2);在1PA2PL一支,杰克选A,而杰西选A,其概率为p(1-q),相应支付向量为(8,6);在1PL2PA一支,杰克选L,而杰西选L,其概率为(1-p)q,相应支付向量为(8,6);在1PL2PL一支,杰克选AL,而杰西选A,其概率为(1-p)(1-q),相应支付向量为(4,2)。于是杰克的期望支付为
4pq+8p(1-q)+8(1-p)q+4(1-p)(1-q)= 4+4p+4q-8pq
杰西的期望支付为
2pq+6p(1-q)+6(1-p)q+2(1-p)(1-q)= 2+4p+4q-8pq
其它组合的支付向量可以用类似方法进行计算。
如果直接对上述标准型求解,由于p和q同时在[0,1]之间变化,大小比较较为复杂,为简单计,设p=q=0.5,则上述博弈矩阵成为下面的矩阵。
| 表4 类型空间与行动空间都是离散集合的贝叶斯博弈的标准型(p=q=0.5) |
| 杰西 |
S21 | S22 | S23 | S24 |
杰克 | S11 | 7,7 | 5,6 | 5,4 | 3,3 |
S12 | 6,5 | 6,6 | 6,4 | 6,5 |
S13 | 4,5 | 4,6 | 4,4 | 4,5 |
S14 | 3,3 | 5,6 | 5,4 | 7,7 |
可见有三个纯策略贝叶斯纳什均衡,即(S11,S21),(S12,S22),(S14,S24)。
其中(S11,S21)表示两人无论偏好如何,都选择看动作片,(S14,S24)表示两人无论偏好如何,都选择看爱情片。(S12,S22)表示两人都按照自己的偏好选择看的电影类型。从支付值可以看出,两人不顾自己的偏好坚持与对方在一起看电影的纯策略贝叶斯纳什均衡能够得到最高的期望收益。而两人如果坚持按照自己的偏好看电影,则可能由于偏好不同导致不能在一起看电影而使得期望收益反而减少。但从表4可以看出,两人都按照自己的偏好选择电影的策略比除总保持双方一起看电影的策略组合(S11,S21)、(S14,S24)之外的其它策略要优越。
(2)古诺模型。设厂商1为低成本的概率为p,为高成本的概率为1-p,厂商2为低成本的概率为q,为高成本的概率为1-q。市场需求为P=a-Q,Q=Q1+Q2是总产量。设厂商i在低成本时的成本函数为CiQi,在高成本时的成本函数为DiQi。
两个厂商的类型空间是Ti={低成本L,高成本H},而两个厂商的行动空间则是[0,a]。
设厂商1为低成本,则其期望利润
p1L(Q1L)=q(a-Q1L-Q2L-C1)Q1L+(1-q)(a-Q1L-Q2H -C1)Q1L
厂商1若为高低本,则其期望利润为
p1H(Q1H)=q(a-Q1H-Q2L-D1)*Q1H+(1-q)(a-Q1H-Q2H -D1)Q1H
设厂商2为低成本,则其期望利润
p2L(Q2L)=p(a-Q1L-Q2L-C2)Q2L+(1-p) (a-Q1H-Q2L -C2)Q2L
厂商2若为高低本,则其期望利润为
p2H(Q2H)=p(a-Q1L-Q2H -D2)Q2H+(1-p)(a-Q1H-Q2H -D2)Q2H
上述四个期望的一阶条件分别如下
-(1-q)Q1L-qQ1L+(1-q)(a-C1-Q1L-Q2H)+q(a-C1-Q1L-Q2L)=0
-(1-q)Q1H-qQ1H+(1-q)(a-D1-Q1H-Q2H)+q(a-D1-Q1H-Q2L)=0
(1-p)(a-C2-Q1H-Q2L)+p(a-C2-Q1L-Q2L)-(1-p)Q2L-pQ2L=0
(1-p)(a-D2-Q1H-Q2H)+p(a-D2-Q1L-Q2H)-(1-p)Q2H-pQ2H=0
上面有四个方程,求解结果如下:
Q1L=(2a-3C1-D1+2D2-C1p+D1p+2C2q-2D2q)/6
Q1H=(2a-4D1+2D2-C1p+D1p+2C2q-2D2q)/6
Q2L=(2a-3C2+2D1-D2+2C1p-2D1p-C2q+D2q)/6
Q2H=(2a+2D1-4D2+2C1p-2D1p-C2q+D2q)/6
这即是纯策略贝叶斯纳什均衡。这里的结果表明,无论是低成本厂商还是高成本厂商,都必须同时考虑自己和对方分别是低成本和高成本时的情况,而且双方都要考虑对方对自己的类型分布的信念。
Q1L-Q1H=(D1-C1)/2
Q2L-Q2H=(D2-C2)/2
可见,低成本厂商的产量比高成本厂商的产量要大。
(类型为连续集合行动为离散集合的情况(3)和类型空间和行动空间都为连续集合的情况(4)待续)