A与B关于此题目的对话
A: 甲与乙在0~100元中同时喊价一个数,设甲的叫价为X,乙的叫价为Y。若X>Y,则甲得100元,乙得0元;反之,若X<Y,则乙得100元,甲得0元;若X=Y,甲、乙各得0元。
每次叫价,甲、乙都必须付出自己喊的钱数X和Y。试求甲、乙二人的收益函数;你认为他们各自的最优策略是什么?为什么?
B: 容我想想。第一感觉是这题比较像书上的题目,可能不太容易第一眼抓住人的眼球。题目很有趣,但是问题比较专业~我再仔细思考一下~thanks anyway
A: 可以把“试求甲、乙二人的收益函数”去掉。
B: 你有这题的答案么?刚思考了下,这题的问法应该是问Nash Equilibrium才对的吧,最优策略如果对方选100,那么自己选0,否则自己选大于对方一点点的数~问best response的话感觉没有问equilibrium有意思诶~
其实这种题目我更倾向于来一场实战~让大家亲身参与进来~另外,题目稍有歧义,喊出的是否限定为整数是需要指出的。
这个题如果纯粹提问的话(例如作为每周一题),可能难度过大,根据本版的回复质量,我感觉能答上来的人、甚至沾边的人都不多诶~可以考虑作为难度题,如果前面几期大家表现挺好,可以在后面的时候放出,你看如何?
A: 一切由领导决定!
喊出的是否限定为整数?——为简单起见,可以限定为整数。
其实,这就是一个逻辑题,无需穷举。
观察甲、乙二人的收益函数,就能大致看出答案了。
请您先写出二人的收益函数,答案就大致在其中了。
B: 征稿要求:
2. 带有比较成熟的参考答案,或者相关reference。
投稿请自带答案噢~
A: 设R1表甲收益,R2表乙收益,X,Y∈[0,100]
收益函数为:
R1=100-X,X>Y
R1=-X,X≤Y
R2=100-Y,X<Y
R2=-Y,X≥Y
分析收益函数可见,仅当X=Y时才能达成均衡,且当X=Y=0时收益最高,所以他们的最优策略是都喊0元。
解释可有多种,结果只有一个。
如:因为甲、乙都想得到最大的收益,甲希望的是X>Y,乙希望的是Y>X,但是不可能同时满足这个条件,而2人都是理性的,所以只有当X=Y时达到均衡,且双方叫价为0收益最大,否则收益一定为负。
又如:甲出价为X,乙出价为Y。
假定甲给定一个X,那么乙选择的Y落在0到X的范围内的概率是X/101,落在X到100的范围内的概率为(101-X)/101。
X>Y时,则甲的收益为100-X。该收益发生的概率为X/101;X=<Y时,则甲的收益为-X。该收益发生的概率为(101-X)/101。
那么甲的收益期望值为P=(100-X)*X/101+(-X)*(101-X)/101=-X/101。
同理可得,乙的总效用函数P=-Y/101。减函数,所以应该出0。
再如:……
B: 这题是没有纯策略均衡的。如果X=Y=0,为什么我不出X=1呢?那样我的payoff就是100-1了。所以这题可以写best response,但是没有纯策略均衡的。
所以这题在我看来就像是石头剪子布,最终会到达一个循环。
1.当x,y都没有到100的时候,每个人总会想着超过另一个人的bid。
2.当有人超到了100的时候,另一个人发现无法超过了,这时候出0就是best response.
3.当出100的人发现另一个人出0了,他的best response又成了出一个比0大一点的数。
然后又循环到1了。
这也说明了为什么没有纯策略的均衡了,没有一个stable的状态以及策略。
A: 这是一个静态博弈,每人只有一次出价机会。如果说有循环,那也是出价前在各自头脑中循环。虽然不存在纳什均衡,却有稳定的逻辑结果——0,这是风险使然。
B: 敢问逻辑结果是什么概念?不存在Nash Equilibrium, 那么这个逻辑结果对应的是什么概念?还没有见到哪个概念可以对应这个逻辑结果的。
所谓的best response, 也是对手strategy的一个function,best response的不动点就是solution (pure Nash),而这个game是没有这样的不动点的。所以0 0 似乎没有什么特殊含义,和1 1以及任何结果一样,都是off equilibrium的strategy
“分析收益函数可见,仅当X=Y时才能达成均衡” 这句怎么解释?为什么x=y的时候达到均衡,什么是均衡?
这句貌似逻辑上说不过去
A: x=y是双方唯一都能接受的。其他结果只是一厢情愿,也就无法达到均衡。
B: x=y不是双方都能接受的噢。哪里的分析可以得出“双方都能接受”x=y?接受的意思是什么?
若x=y=50,那么对于x,往下我可以取0,这样我的payoff是0而不是-50,往上我可以取51这样我的payoff是49而不是-50.不管怎么样,x=y=50都不是可以“接受”的。
类似,即使x=y=0,那么x为何不取1而取0,从而获得99的payoff呢?
A: 我没有说(0,0)是纳什均衡,前面已经说“虽然不存在纳什均衡,却有稳定的结果——选0,这是风险使然”。
B: 噢,我们出题的意图看的还是theory,而不是看的behaviour。您所谓的,稳定的结果,风险使然,有没有对应的理论支持呢?
当然,现实game和理论的结果可能会有出入,但是0,0也只能说代表了一部分人的选择,不同risk attitude的人的选择是不一样的。如果研究behavior上什么是对的,这就是说不清的事情了。您觉得选0最保险,有些人还觉得选1如果输了也只损失1块,而赢了能赢100呢~
您所谓的0,0是“风险使然”,是不是基于minimax strategy?从这个角度上看,0,0可以作为Minimax strategy。但是我同样不赞同behaviorly,人们都会play 0,0。因为没有证据表明,所有的人都prefer一个“一定是0”的strategy,与一个“有可能得100 payoff”的strategy(比如play1)。选0,相当于加了risk averse,并且程度很厉害的这样的假设。
A: 所以我说这是一个逻辑问题。我们都是理性人,您能想到的我也都能想到。这是讨论问题的前提。如果您觉得选1如果输了也只损失1块,而赢了能赢100,那别人也同样会有此想法,甚至会选择2,所以您别想赢。别假设您比别人聪明。
B: 这不是谁聪明的问题,可以认为是不同risk attitude的人的选择不同。
选0确实风险最低,但是也意味着没有任何获得正收益的可能性。
您是如何得出,您能想到的我也能想到,所以我们就都要选0了呢?因为风险最低?
那我们play game的目标,也并不是风险最低吧。。。看一个strategy是不是optimal,看的是payoff,而不是risk吧。
我同意这样的观点:选0是最保守的方法,对于risk averse的人来说是optimal strategy,或者说,这是一个Minimax strategy。
但是,1.这不是一个NE(这点你也同意) 2.我们没有理由说明,人们会这样behave。因为还没什么理论保证人们都是玩minimax的吧~您说,如果我们玩一局,可能我会选0.但是这也只是代表了一种人,您同意么?
A: 设R1表甲收益,R2表乙收益,X,Y∈[0,100]
收益函数为:
R1=100-X,X>Y
R1=-X,X≤Y
R2=100-Y,X<Y
R2=-Y,X≥Y
这个收益函数您是否有异议?如果没有,那么当X=Y=0时各自的收益最高,所以他们的最优策略是都喊0元,没有问题吧?
因为我们都是理性的,所以您能想到的我也能想到,所以我们就都要选0。
B: payoff function没有异议。x=y=0时为何各自收益最高,请解释given y=0, x=0的收益对于甲来说不是最高的。同理,对于x=0, y=0对于乙来说收益也不是最高的。
那么,收益最高指的是?
您所说的思路我能部分理解,处于safe或者您说的风险考虑,0,0看起来好像是个诱人的选择。但是,那也是基于minimax思想的。而所谓的最优策略,或者对结果的prediction,一般都是直接基于payoff function的,而不是基于payoff function的min。
A: R1=100-X,X>Y——X=0,R1最大
R1=-X,X≤Y——X=0,R1最大
R2=100-Y,X<Y——Y=0,R2最大
R2=-Y,X≥Y——Y=0,R2最大
只有这些情况了吧?
B: 对于1和3,Y=0和X=0时,不等号都不可能成立。。。
这也就是我说的,选0的时候放弃了赢的可能性。永远不可能出现100-X的payoff
对于2和4,既然要输,那当然选0最合适了。但是1和3的时候,选0不可能赢的。。。
A: 的确如此,当X≠Y时,答案是X→0或Y→0。
B: 是的,但是不可能是x=0或者Y=0
A: 对于这个题目,您现在可以给出答案了吗?
别告诉我无解循环啊。
B: 就是循环啊。就像是石头剪刀布,这样循环下去的结果就是没有pure strategy NE
因为所有的结果都有deviate的动机,所以只能让自己unpredictable。如果研究这个题目的mix strategy NE (根据定理应该是存在的),将会更加有意思和难度~当然,只考虑pure的话,结果就是not exist
A: 那我们再看看这个解释有什么问题:
甲出价为X,乙出价为Y。
假定甲给定一个X,那么乙选择的Y落在0到X的范围内的概率是X/101,落在X到100的范围内的概率为(101-X)/101。
X>Y时,则甲的收益为100-X。该收益发生的概率为X/101;X<=Y时,则甲的收益为-X。该收益发生的概率为(101-X)/101。
那么甲的收益期望值为P=(100-X)*X/101+(-X)*(101-X)/101=-X/101。
同理可得,乙的总效用函数P=-Y/101。为减函数,所以应该出0。
B: 这是belief的问题。问题出在,Y落在0到X的不是uniform的distribution。因为这不是Y的策略。
如果举一个更极端的例子,我作为X就认定了Y一定会选0,那么此时1就是最好的策略。同理,如果我认定Y一定选1,那么2就是最好的策略。成为equilibrium的条件式,belief要是correct的!也就是说,x对y的belief和y实际采取的(mixed)的策略,必须要是一致的。
并不是任意一个belief justify了我的选择,那么我就能安心的选这个结果了~所以还是要“两厢情愿”。
我的belief(或者说我计算我期望效用的概率)要和你的实际策略相符。你的belief也和我的策略相符。
同时在这种情况下,我和你的strategy的payoff还都是最大的,这样才能构成一个均衡
A: 是啊,概率可能不是均匀分布的。
这种说法有问题吗?——因为甲、乙都想得到最大的收益,甲希望的是X>Y,乙希望的是Y>X,但是不可能同时满足这个条件,而2人都是理性的,所以只有当X=Y时达到均衡,且双方叫价为0收益最大,否则收益一定为负。
B: “所以”的依据是?X=Y不是均衡,never是。不能说我想比你高,你想比我高,那么我俩一样高就是最好的结果啊~因为这个问题很残酷,我比你高或者你比我高,至少有一个人得100,而我们相同得结果会是0.
理性,是得不到x=y得结果的。所谓的理性,大概指的是效用最大化。一般我们考虑的是理性+信息(common knowledge)。这两个前提条件都得不出x=y的结果的啦~
A: 您说:“就是循环啊。就像是石头剪刀布,这样循环下去的结果就是没有pure strategy NE”,问题是您只有一次选择机会,如何循环?
(0,0)的确不满足纳什均衡的定义,但当您只有一次出价机会时,您会在[0,100]中做何选择?为什么?
B: 循环的意思可以理解为双方无法达到共识,没有一个稳定的状态。
NE只是理论上的solution concept,但是实际上人们未必会表现出play NE。就像物理学告诉我们推一下,这个东西就应该一直直线运动下去,但是事实上很难/不可能发生。
如果要讨论solution concept的话(或者说理性人“应该”)如何选择的话,那就会使用mixed strategy了,就像石头剪刀布里面,1/3 1/3 1/3的概率。这里构造mixed strategy我还没有细想,但是毋庸置疑,均衡状态就是mixed的。
至于人们“会”如何play,这是behaviour上面的东西,也是研究的难点。game theory只是告诉我们,理论上的optimal,或者说should play.
behavior上更像是 will play
如果您还是想问我会如何选择,我会给以下几个选择:
如果我心情好,想表现得最优,那么我会根据理论上得mixed来play(但是实行上仍然有难度)
如果我十分保守,害怕亏钱(特别是给定一定的ndowment),那么我可能会选0.
或者,我就是喜欢3这个数字,那么我选择出3.
真正要预测人的行为很难得,只能说,理论上说,最Optimal的选择(基于期望效用)就是mixed strategy(第一种)。其他的选择也是可能的。
可以理解为,"理论"告诉我们要天天学习,不要玩游戏,不要xxx。但是"实际上",有人会这么做,但是有人完全不这么做,有人部分这么做~
A: 您所说的混合策略纳什均衡是怎样的呢?纳什说纯策略均衡不一定有,但混合策略均衡总是存在的。
至于您说的明知学习重要,却不肯放弃玩耍,那是理性不足的表现。博弈论的研究前提是所有局中人都是理性的。非理性的行为,要放到行为博弈中去讨论了。这是两个不同的体系。
您说:"我就是喜欢3这个数字,那么我选择出3."请问这是一个理性人的行为吗?
您的意见对我有启发,谢谢您!只是还觉得不过瘾,仍然没有从根本上扭转我对(0,0)的偏好。我之所以提供这个题目来讨论,就是因为(0,0)不符合纳什均衡的定义,却被理性人选择,具有稳定性,也许博弈论无法解释,而要用风险理论或其他什么理论来解释。我一直不能理直气壮地、完美地解释它。
B: 可以这样认为:理性人假设是maximize他自己的utility的。那么我们传统的utility都是期望效用、期望收益,这也是nash equilibrium所采取、关注的payoff。0,0是另一个概念(minimax),在这种情况下,其实关注的是自己收益的最小值。如果自己是理性的+关注的utility是收益的最小值(而不是收益本身),那么0,0就是理论预计的答案了。
混合策略容我想想。
混合策略在离散情况下并不复杂。不知道您熟不熟悉混合策略的解法(比如一个2x2,或者3x3的game)。如果熟悉的话,那就好办了:把他们的strategy列成101X101的矩阵,每个格子里填上对应的payoff。
比如第一行0,0 0,99 0,98 .... 0,0
第二行 99,0 -1,-1 -1,98, ... -1,0
一直写满整个101X101的矩阵,然后想当于转换成100个未知数,100个方程的方程组,就可以解出每个策略的p_i了。这也是解一般Mixed strategy的方法。如果您乐意自己动手,可以编程算一下。如果只是要结果,我也可以offer一个程序
连续情况,可以参考all pay auction的equilibrium,其中v_a v_b都是100.
A: 混合策略的思想我可以接受(此前我们讨论的是纯策略),编程我恐怕难以胜任,请您把程序发给我:
whe58@sina.com,我抽空算算。您的程序不会是Gambit.exe吧?此程序我有
https://bbs.pinggu.org/thread-2126359-1-1.html。
B: 不是啊。我的意思是随便写个程序啊。。。你那有什么语言?matlab或者R都可以写一个
A: 那我还是用Gambit.exe吧。这可是一个有101个元素的概率集合啊!而且两人的混合策略完全一样。
我一直考虑纯策略,是您提醒了我可以考虑混合策略。但混合策略在现实中操作性将大打折扣。
B: 是的。我已经说过啦,这个game不存在纯策略均衡,只有混合策略的。所以对现实的prediction效果不好,尤其是1 shot game。