“囚徒困境“的哲理
有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破中,抓到两个犯罪嫌疑人,并从他们的住处搜出被害人家中丢失的财物。但是,他们都矢口否认杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离审讯。
聪明的警官找他们谈话,分别告诉他们说:“你们的偷盗罪确凿,无论如何可以判你们2年刑期。但是,我可以和你做个交易:如果你承认自己犯了杀人罪,我可以向法官求情,你只用坐5年牢;如果你不承认杀人,而那个人同意作证人指证你的话,你将被终身监禁,而他可以被立刻假释出狱。”
对两个嫌疑犯来说,最好的结果就是不承认,这样坐2年牢就可以了。但是他们想了想,都承认了自己杀人的罪行。
很多人不禁会问,为什么两个人都选择了“招供”,傻到接受这种最坏的结果呢?首先我们必须明确的是,两个嫌疑犯都是自利理性的个人,即只要给出两种可选的策略,每一方将总是选择其中对他更有利的那种策略;同时两人无法沟通,必须在不知道对方所选结果的情况下,独自选择。
那么囚犯甲的内心活动是这样:假如乙招了,我不招,我就要将牢底坐穿,招了最多坐5年,还是招了合算;假如乙不招,我也不招,只坐2年牢;如果我招,乙不招,我马上被释放,也是招了合算。因此,无论囚犯乙是坦白还是沉默,囚犯甲采取坦白的策略对自己都更为有利。同样,以上推理也适用于囚犯乙。结果两个囚徒都坦白了,都被判刑5年。
1950年,担任斯坦福大学客座教授的数学家图克向一些心理学家解释他正在研究的完全信息静态博弈问题,用两个犯罪嫌疑人的故事构造了一个博弈模型,即囚徒困境模型。由于囚徒困境的模型是如此有趣和简洁,不仅给人们留下了深刻的印象,而且迅速不胫而走,成为一个被人们广为谈论和研究的博弈模型。
在囚徒困境中“甲供认,乙供认”的占优策略均衡中,不论所有其他参与人选择什么策略,一个参与人的优势策略都是他的最优策略。不管甲、乙两人谁供认,都将得到减轻惩罚的结果:如果甲供认了,乙抵赖,甲将免于惩罚,如果乙也供认了,那么罪名各担一半,从甲个人看来,也减轻了惩罚;甲、乙互换位置,结果依然是一样。显然,这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。
与占优策略相对应,劣势策略则是指在博弈中,不论其他参与人采取什么策略,某一参与人可能采取的策略中,对自己严格不利的策略。劣势策略是我们在日常生活中不应该选择的行动。
而如果所有参与人都有占优策略存在,那么博弈将在所有参与人的占优策略的基础上达到均衡,这种均衡称为占优策略均衡。
博弈学专家告诉你
有一个要注意的问题是,采用优势策略得到的最坏结果,并不一定比采用另外一个策略得到的最佳结果要好。应该说,参与人采用优势策略时,无论对方采取任何策略总能够显示出优势。
背叛是不得已的选择
在明代宋濂的《宋文宪公全集》中,记载了这样一个故事。
从前书生甲和书生乙是朋友。甲说:“我辈应该自我激励。他日入朝为官,对于趋炎附势之事绝不涉足。”乙说:“这是我痛恨得咬牙切齿的行为,我们干吗不对神起个誓?”甲很高兴,二人就歃血盟誓道:“二人同心,不徇私利,不为权位所诱,不趋附奸邪献媚的人而改变自己的行为准则。
如违背此盟誓,请神明惩罚他。”
没多久,他们一起入朝为官。当时有个大臣在皇帝跟前很得宠,百官每天奔走于他家。甲重申以前的誓言,对别人说:“说过的话犹在耳畔,怎么敢忘记啊!”但乙反悔当初的誓言,又怕甲知道他反悔,于是在一个大清早,鸡刚一报晓,他就前去拜望那个大臣。进得门来,他忽然看到正屋前东边的走廊有个人坐在那里。他走上前去举起灯来照,那个人原来是书生甲。
人们对某种权力表现得忠诚服从,实际上并非兴趣使然,而是人们服从一种被选择的纳什均衡。因为在人们的预期中,往往先假定别人绝对会服从,这样为了自己的利益最大化,也只能选择服从。
在面临有权势的上司时,面临的选择有以下几个:选择A——不巴结,落选;选择B——巴结,落选;选择C——巴结,升官。在这些选择里面,如果选择巴结上司会有升官的机会,而其他人也面对同样的局面。假定两个人竞争一个官职,对于甲来说,当他选择了巴结,而如果乙选择不巴结,职位自然属于甲;若是乙也选择巴结,就需要一个附加的条件——
他巴结得比甲更到位,这样才能得到仅有的一个位置。
所以,在这一博弈过程中,无论乙作出什么选择,甲只要自己拼命巴结,就会有机会升官,这是遵循我们上面所说的原则的。权力的影响力以及领导的尊严便是这样形成的,人事腐败也是这样产生的。
这种思维方式,特别像约瑟夫·海勒的小说《第22条军规》中的尤塞瑞安。小说中的背景是:第二次世界大战胜利在望,可是为了给自己捞取功劳,一个飞行大队的指挥官没完没了地提高下属的任务定额,弄得人心惶惶。投弹手尤塞瑞安不想成为胜利前夕最后一批牺牲者,千方百计逃避执行任务。指挥官质问他:“可是,假如所有士兵都这么想呢?’’尤塞瑞安答道:“那我若是不这么想,岂不就成了一个大傻瓜?”
在这种思维里面,实际上揭示了一个形成囚徒困境的机制——担心自己成为傻瓜。而了解这种机制,恰恰可以提供减少自己在“囚徒困境中损失的策略。在这个过程中,利害计算在每一个参与者那里都是超越一切价值与信念的。处于囚徒困境的时候,没有什么十全十美的好办法能让自己从困境中逃脱,同时又能获得利益,只能尽量做到自己不受侵害,正是所谓“两害相权取其轻”。
博弈学专家告诉你
“囚徒定律”基本精神就是背叛。无论对方作出什么样的策略选择,背叛对方(同时也是背叛自己曾经发过的誓言),都能够让自己获得收益,那么必然要选择背叛这一道路。
把对手拉进陷阱
春秋时吴国杰出的军事家伍子胥,青少年时即好文习武,勇而多谋。
伍子胥的祖父伍举、父亲伍奢和兄长伍尚原来都是楚国大臣。后来楚平王怀疑太子造反,迁怒于太子太傅伍奢,将伍奢和伍尚骗到郢都杀害,伍子胥只身逃往吴国。
在逃亡中,伍子胥在边境上被守关的士兵抓住了。士兵对他说:“你是逃犯,必须将你抓去面见楚王!”
伍子胥说:“楚王确实正在抓我。但是你知道楚王为什么要抓我吗?是因为有人跟楚王说,我有一颗宝珠。楚王一心想得到我的宝珠,可我的宝珠已经丢失了。楚王不相信,以为我在欺骗他。我没有办法了,只好逃跑。
现在你抓住了我,还要把我交给楚王,那我将在楚王面前说是你夺去了我的宝珠,并吞到肚子里去了。楚王为了得到宝珠就一定会先把你杀掉,并且还会剖开你的肚子,把你的肠子一寸一寸地剪断来寻找宝珠。这样我活不成。而你会死得更惨。”士兵信以为真,非常恐惧,赶紧把伍子胥放了。
伍子胥终于逃出了楚国。
博弈模型是生活的浓缩和简化。比如在囚徒困境模型里,两个囚犯都十分清醒地意识到自己所处的环境,以及每一种策略可能得到的结果,因此其策略选择是可以预知的。而在现实生活中,这种完全信息的理想模式是无法实现的,因为存在大量的干扰因素。但也正是这些干扰的存在,使我们可以通过巧妙的布局设计,人为创造出一种囚徒困境的环境,迫使对方做出对自己有利的行动。
伍子胥的威胁行动,就是抢占先机,宣布自己将无条件地进行报复,这就使原本同时出招的博弈变成相继出招的博弈,而且还是伍子胥先行。
而这样的选择,显然不是在他和士兵同时出招的博弈里能够做出的选择。
摆脱困境的策略思维的精彩之处,正在于此。伍子胥若是不宣布进行报复,或者甚至宣布不会进行报复,那是不会得到任何好处的。在这里,伍子胥是故意利用信息对称,把士兵拉入一种类似囚徒困境的局面。从博弈论看来,人都是理性的,所以士兵一定会选择与伍子胥合作的策略。
在这里,士兵能够得到的最好结果是把伍子胥押送给楚王,而伍子胥如果不诬陷他吞了珍珠,伍子胥就会被杀掉,而士兵则可以得到楚王的奖赏。但是如果伍子胥诬陷他的话,那么他的结局就和伍子胥一样,是失去生命。伍子胥已经告诉他,如果他选择押送,他就会选择诬陷。因为对于伍子胥来说,在这种情况下无论是否诬陷,自己的结局是不变的。对于这一点,士兵也十分清楚。因此,伍子胥的威胁是可信的。要想策略地行动,你必须保证自己不要采取在同时出招博弈里的均衡策略。伍子胥的这一策略行动改变了士兵的预期,进而改变了他的行动。
面对可能出现的潜在危机,人们总是抱着“宁可信其有,不可信其无”
的态度,这是一种预期的支付,以保证自己能够免于陷入困境。这种预期支付心理,恰恰给了处于显性困境者以机会,或用欺骗方式,或夸大其词,让对方做出预期支付,帮助自己摆脱困境。正是由于这个原因,伍子胥三言两语巧妙地转换了自己的劣势处境,并且把个人的困境与对手的困境捆绑在了一起,迫使其作出了帮助自己解围的理性选择。
博弈学专家告诉你
创造一种困境,使对方陷入与你一样无法全身而退的困境,那么即使在这种困境出现之前,他本来拥有拿走你所有的一切的优势,此时他也只能被迫进行理性的决策,与你合作。
聪明反被聪明
清朝有个读书人叫乔世荣,其貌不扬,但是精通诗书,颇有才干。他于某年大考及第,到吏部候职时,因无余银“上贡”,所以坐了好久的冷板凳才被任命为一个七品县令。在走马上任的途中,乔世荣碰到一老一少二人在激烈争吵。一问之下才知道,老者拾获钱袋,在原地等候遗失者前来认领;而遗失钱袋的年轻人,找到钱袋后反而一口咬定钱袋装有五十两银子,而不是现在的十两银子。围观的民众议论纷纷,有的认为老者昧银,有的认为年轻人耍赖。
乔县令走上前去亮明身份,先向老者问话:“你捡到这钱袋,有没有离开原地。”老者答:“没有。”乔县令又问:“可有人见证?”一部分围观民众纷纷愿替老者作证。乔县令于是胸有成竹地说:“这就对了,老者捡到的钱袋,是装十两银子,那就不是年轻人的装有五十两银子的钱袋。这位老者,你拾金不昧,本县判将钱袋赏你。这位年轻人,你的五十两银子的钱袋,还是自己再到别的地方找一找吧。”在人们的讥笑声中,年轻人只好自认倒霉,灰溜溜地走开了。
这个故事告诉我们:失败有时不是因为人们太傻,而恰恰是太精明所致。对于这个论断,哈佛大学巴罗教授在研究囚徒困境的过程中,也有一个很接近生活的模型。
话说有两个旅行者A和B在一个以出产瓷器的著名旅游胜地各买了一个瓷花瓶。但回来提取行李时,他们发现花瓶被碰破了,于是向航空公司索赔。
航空公司估计花瓶的价格在80~90元左右,但不知道这两位旅客购买的准确价格。航空公司要求两位旅客在100元以内自己写下花瓶价格。
若两人写的相同,说明他们说了真话,就照他们写的数额赔偿;如果两人写的不一样,那就认定写得低的旅客讲的是真话,按这个低的价格赔偿,但是对讲真话的旅客奖励2元钱,对讲假话的旅客罚款2元。
为了获取最大赔偿,甲、乙两位旅客最好的策略就是都写100元,这样两人都能够获赔100元。可是甲很聪明,他想:如果我少写l元变成99元,而乙会写100元,这样我将得到101元。何乐而不为?所以他准备写99元。可是乙更加聪明,他算计到甲要算计自己而写99元,“人不犯:我,我不犯人,人若犯我,我必犯人”,于是他准备写98元。想不到甲又聪明一层,算计出乙要这样写98元来坑他,“来而不往非礼也”,他准备写97:元。
下象棋的时候,不是说要多“看”几步吗?看得越远,胜算越大。你多看两步,我比你更强,多看三步;你多看四步,我比你再多看五步。
在花瓶索赔的例子中,如果两个人都“彻底理性”,都能看透十几步甚至几十步、上百步,那么上面那样“精明比赛”的结果,最后将落到什么田地?事实上,在彻底理性的假设之下,这个博弈唯一的纳什均衡,是两位旅客都写0。
对于这个演进了的囚徒困境,巴罗教授称之为“旅行者困境”。一方面,人们在为私利考虑的时候不要太精明,因为精明不等于高明,太精明往往会坏事;另一方面,它对于理性行为假设的适用性也提出了警告。
博弈学专家告诉你
吃亏的人,常常是自认为自己聪明且不知适可而止的人。对于纯粹的“理性”,我们也是要辩证地看待的,否则事情的结果会与初衷大相径庭,非但损人,而且不利己。
要学会制定规则
唐敬宗时,李德裕曾任浙西观察使。当地甘露寺的和尚向官府控告前任主事僧贪污寺里的钱。他们说,过去寺里历届主事僧办交接时,账面上记载的金子数目都很清楚。但这个主事僧办交割时,却不见金子。他们众口一词地指控这主事僧把金子藏起来私用了。经过审讯,案子成立,主事僧也明确认罪了。但是在审理过程中,他并没有进一步交代把金子用在什么地方了。