囚徒困境博弈
---------------------------------------------------------------- 塔克是从这样一个小故事开始的:两个夜贼,鲍伯(Bob)和艾尔(Al),在行窃现场附近被抓获并被警方隔离拷问。每个夜贼都必须选择是否坦白和揭发对方。如果两个贼都不坦白,他们都将被判刑一年。如果每个贼都坦白并揭发对方,他们都将在监狱中度过10年。但是,如果一个贼坦白并揭发对方,而另一个贼不坦白,那么与警方合作的贼将被释放而另一个贼将在监狱中度过20年。 在这个例子中的战略是:坦白与不坦白。赢利(payoff)(实际上是处罚)是判刑。我们可以用“赢利表(payoff table) ”简洁地表达上述信息,这类赢利表已经成为博弈论中很好的标准表达式。以下是囚徒困境博弈的赢利表。 表2-1 艾尔 坦白 不坦白 鲍伯 坦白 10,10 0,20 不坦白 20,0 1,1 这个表的读法是这样的:每个囚犯从两个战略中选择一个。即,艾尔选择一列,鲍伯选择一行。每个单元格的两个数字告诉两个囚犯相应的战略被选择后的结果。逗号左边的数字表示选择行的人(鲍伯)的赢利,逗号右边的数字表示选择列的人(艾尔)的赢利。因此(先阅读第一列),如果他们都选择坦白,每人将判刑10年,但是如果艾尔坦白而鲍伯不坦白,鲍伯被判20年而艾尔将被释放。 那么:怎样求解这个博弈?如果双方都想使自己呆在监狱的时间最短,他们选择什么战略是“理性的”?艾尔可能会做这样的推理:“两种事件可能发生:鲍伯要么坦白要么保持沉默。假定鲍伯坦白,我不坦白的话将被判20年,我也坦白的话则判10年。另一方面,如果鲍伯不坦白,我不坦白我被判刑1年,但在这种情况下,如果我坦白我可以被释放。无论怎样,我选择坦白都是最好的。因此,我将坦白。” 但是鲍伯能够而且大概也将做同样的推理——因此他们都将坦白并且都在监狱呆10年。然而,如果他们“不理性”地行动,都保持沉默,他们都可以在1年后被释放。 -----------------------------------------------------------------------------------------------
对于这个经典案例,很早就有人分析过,博弈论成立的基础是把别人当作傻瓜。那张赢利表是问题的关键:
艾尔 坦白 不坦白 鲍伯 坦白 10,10 0,20 不坦白 20,0 1,1
根据这张表,我们假设囚犯会概率论(尽管这是比较荒唐的),以艾尔为例,可以看到如果选择坦白一列,可能的结果是10X50%+0X50%=5年,而不坦白一列,结果是20X50%+1X50%=10.5年。如果他会概率论,他就会选择坦白。可问题是他如果不会概率论呢?
又,假设警察告诉他们的是另一张表:
艾尔 坦白 不坦白 鲍伯 坦白 20,20 0,10 不坦白 10,0 1,1
显然这时候两个人的选择都是不坦白,因为不坦白那一列的可能囚禁年数较少。
因此这张表才是问题的关键,作为会概率论的罪犯,他们的选择完全取决于这张表。因此对于象纳什那样既天真而又会概率论的囚徒,警察可以任意使用不同的表来获得自己想要的回答。
但事实是,这套把戏只能对付新手。稍微老道一点的囚徒,都会意识到这张表是问题的关键,在他们被捕之前,肯定已对于这张表或者说法律的程序了如指掌,因此无论警察如何套供,肯定是拒不承认。这一点,可以在众多香港影片中看到:黑帮被抓之后,都是死不认帐,最终获释,因为他们很清楚法律:在没有证据的情况下,是没有理由治罪的。
很多问题的关键不在博弈而在于信息优势,信息的多寡和力量的高低才是决定性的。