从“囚徒困境”到“保研博弈”
最近发现身边有些同学一直在保研这个问题上纠结,主要是在保外的问题上,因为学院仅有少数的保外名额,到底哪些人有幸能够获得还真是个难题?所以在抉择的过程中,他们就涉及到了诸多因素的考虑,在他们分析过来分析过去的过程中,我不禁看到了“囚徒困境”的再现,他们所做的无外乎是在追求低效率的资源配置而已。言归正传吧!
本来不想写“囚徒困境”的,这个好多人都知道,毕竟这么有名的博弈案例,但为了顾及众多的行外人,还是必须说说,认为这段没有必要的可以跳过蓝色部分。
“囚徒困境”讲的是这样一个事件:两个合伙犯罪的罪犯现在已经被收押,分别关在两个不同的房间里,但法院不能拿出确凿的证据证明他们有罪,所以最后的任务就落在的审讯官的头上。有趣的审讯官采取了一种有趣的审讯方式,其产生了三种情形:(1)如果两个罪犯都坦白交待,那么可以从轻发落,均关押3个月;(2)如果两个罪犯都诋赖矢口否认,那么没办法,只能都扣留1个月;(3)如果罪犯甲坦白而乙诋赖,那么甲无罪释放,乙将被关押6个月;反之亦然。我们用表格可以这样表示:
其中表格里面的数字绝对值代表将被关押的天数,数字大小可以理解为得分,向量第一个分量代表罪犯甲的得分,第二个分量代表罪犯乙的得分。
从表上我们可以看到罪犯乙坦白的话,罪犯甲也会选择坦白(否则他将被关押6个月);如果罪犯乙诋赖的话,罪犯甲也会选择坦白(这样可以无罪释放);同理对罪犯乙也一样。所以最后博弈的结果将是两个可怜的罪犯都会选择坦白,但大家可以看到这不是个双赢的决策,最好的结果应该是两个都诋赖,哈哈,可惜信息不对称(被关在了两个不同的房间里以及存在信用风险),白白便宜了那个审讯官!!!
上面这个故事只是想告诉大家一个道理:在既定的环境(如上面的审讯方式或者说下面将论及的事件假设)下,博弈双方都会采取对自己最有利的经济行为(虽然不见得是最佳的行为),从而达到一种均衡的结果。好了,说正题吧!
“保研博弈”说的是这么一回事儿:一所高校的一个系的6名同志都拿到了保研的资格,可只有3名同志能够保外,所以现在面临着是保外还是保内的困惑?我们可以试试用上面的方法来分析分析。(其间可能涉及混合策略的问题,不过大家应该能看懂)
在分析之前,我先建立几个假设条件,虽然某些假设可能初见之下不一定成立,如果那样,还请看文章最后面的假设注释。
假设1:大家都是理性人。
假设2:保外的学校比保内的学校一定好,所以大家都愿意去保外。【见注释1】
假设3:6名同志是“同质”的,指的是基本条件一样,即如果保外都会成功,且成功的概率一样。【见注释2】
假设4:保外失败后,将丧失保研资格,即不能再保内。【见注释3】
现在,这样来分析:
对A同学而言,一方面,如果其他5位同学都选择保外的话,他将自动选择保外。为什么呢?因为如果其他5人都决定保外了,他再去保外成功的可能性有多大呢?1/2(C52/C63).
另一方面,如果其他5位同学有4位、3位、2位、1位或者0位选择保外的话,他也将自动选择保研。为什么呢?因为在上述几种情况下,他保外成功的概率将分别为3/5(C42/C53)、3/4(C32/C43)、1、1和1。
综上所述,无论其他人的反应如何,A同学都会选择保外,因为这是他的占优策略;同理,对于其他的5位同学而言,保外也是他们的占优策略,所以最后均衡的结果都是,6位同学都将会选择保外。
就这样,我们看到杯具的一幕发生了,最终不可避免的会有3人失去宝贵的保研资格。所以,这个决策又重蹈“囚徒困境”的覆辙,尽管大家都认为自己做了一个最理性的选择,然而最终的结果却偏偏不能让所有的人都满意。要追述其原因,其实是我们这个系统出了问题,使得我们自认为最优的决策反而导致了低效率。“囚徒困境”最好的结局应该是两人都只关押1个月,“保研博弈”最好的结局也应该是3人成功保外,3人成功保内。系统的症结何在?分散了信息。要解决这个问题,大家必须互通信息,相互沟通,并建立可靠的信用机制;说通俗点,大家必须要合谋,并且严格遵守合谋决定。
哈哈,说完了,本人也只是信息经济初入者,可能很多地方都有重大的错误甚至原则性的错误,不过我只是就身边的事儿发表点经济学上的解释言论,无伤大雅!