书城管理博弈
47454200000014

第14章 “重复囚徒困境”的游戏

其目的就是要研究在无限次数的“对局游戏”中人为什么要合作,人什么时候是合作的、什么时候又是不合作的,如何使别人与你合作。

一位美国科学院院士、著名的行为分析和国际关系专家罗伯特·艾克斯罗德搞了一场关于“重复囚徒困境”的游戏。

艾克斯罗德的游戏思路非常简单:任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序,然后他们的程序会被成双成对地融入不同的组合。分好组以后,参与者就开始玩“囚徒困境”的游戏。在游戏中,有两个对策者,他们可以有两个选择:合作或背叛,每个人都必须在不知道对方选择的情况下,作出自己的选择。

艾克斯罗德邀请了来自经济界、心理学、社会学、政治学和数学领域的14位专家参与这一游戏。每个参加者每一步都要写出个体选择合作或不合作的程序,这个程序在作选择时可以利用对局的历史情况来分析,从而决定自己的策略。游戏双方的选择,放在一起就产生了四种可能的结果,即:

1.合作,合作;

2.合作,背叛;

3.背叛,合作;

4.背叛,背叛。

在这个游戏中,如果双方选择合作,双方都能得到较好的结果,即“对双方合作的奖励”为3分。如果一方合作而另一方背叛,那么,背叛者因为讨了对方的便宜,所以得到“对背叛的投机”5分。而合作者因为被对方占了便宜,只能得0分。如果双方都背叛,那么双方既没有占到便宜又似乎没有失去什么,所以都得到1分。

我们设想甲、乙两个程序在一起博弈,就出现这样的结果。

甲:合作(3)乙:合作(3)

甲:合作(0)乙:背叛(5)

甲:背叛(5)乙:合作(0)

甲:背叛(1)乙:背叛(1)

就这种情形看来,对双方来说最好的结果是选合作,总体得6分。如果一方选合作,一方选不合作,总体得5分。如果两人都选不合作,总体得2分。

竞赛是循环进行的,即每一个参赛程序都与其他程序相遇。按照事先宣布的竞赛规则,每一个参赛程序还要与自己对局,以及和一个“随机程序”相遇。所谓“随机程序”是指以相等的概率(50%)随机地选择“合作”或“背叛”。

艾克斯罗德要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两对局,以找出什么样的策略得分最高。

14个程序再加上一个“随机程序”彼此开始了第一轮游戏。

让我们来分析一下这个“重复困境游戏”。虽然对个体而言,最大的利益是得5分,但如果对局在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契时,对策者就能持续地得3分,这是一个相对理想的结果;但如果持续地不合作的话,每个人就永远得1分。因此,就整个参赛程序而言,不可能得到高分。这样,合作就成为了这个游戏的优势策略。

在这个游戏中,参赛者提出了各种程序,根据程序的本意大致可分为“善良的”、“邪恶的”和“随意的”三类。所谓“善良”策略即是“以合作为主”的策略;而“邪恶”策略则是“以占便宜为主”的策略。

最后胜出的是一个称为“一报还一报”策略,它是所有提交程序中最简单,结果却是最好的。“一报还一报”这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。

假设某人的策略是:第一次合作,以后只要对方不合作一次,他就永不合作。对这种对策者,当然合作下去是上策。假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。对于总是不合作的人,也只能采取不合作的策略。

为什么“一报还一报”这样一个简单的策略会打败其他学者绞尽脑汁写出来的复杂程序呢?

让我们再来反思一下“一报还一报”稳定成功的原因。简单地说,这个“以其人之道还治其人之身”的策略有着下面四个特点:

一、清晰性:以牙还牙,以眼还眼。以合作还合作,以背叛还背叛,使它容易被对方理解,从而引出长期的合作关系。

二、善良性:这种策略一开始便以善意和对方合作,也绝不会先背叛对方,这可防止它陷入不必要的麻烦。

三、报复性:如果对方背叛,下一次一定如法炮制,自动施以报复,决不原谅。报复性使对方试着背叛一次后就不敢再背叛;

四、宽容性:如果对方又主动恢复合作,要立刻与对方握手言欢,既往不咎,有助于重新恢复合作。

“一报还一报”策略是有关“囚徒困境”的最著名的也是被讨论最多的策略。它非常容易理解也非常容易被编成程序,更因为这个策略能引发人们的合作关系而著名。

“一报还一报”的成功可以说明它是一个很具适应性的规则:即它在很大范围内表现极佳。

有趣的是,“一报还一报”这个策略与单独某个策略相遇时,没有一次是赢了对方的,顶多是和对方打成平手。“一报还一报”策略从来没有一次在竞赛中比对方得更多的分!它总是让对方先背叛,而它自己背叛的次数也绝不比对方多。它的得分往往比对方少,至多与对方相等。但是,在与多样化的对手分别比赛之后,最后加起来的,它的总分仍然有可能是最高的。今天如果比赛的规则改变了,在单独比赛赢的人将得到所有的分数,输的为零分。那么“一报还一报”可能就没机会坐上冠军的宝座了。

“一报还一报”的成功部分是由于其他规则预料到它的存在并且被设计得与它很好相处。要和“一报还一报”很好相处就要求和它合作,这反过来就帮助了“一报还一报”规则。即使是那些想伺机占便宜而不被惩罚的规则,也很快向“一报还一报”规则道歉。

任何想占“一报还一报”便宜的规则最终将伤害自己。“一报还一报”从自己的不可欺负性中得到好处,这是因为遇到“一报还一报”的可能性是很大的。一旦相遇,“一报还一报”很容易被识别出来。一旦被识别出来,“一报还一报”的不可欺负性就显示出来。因此,“一报还一报”从它自己的清晰性中得到好处。

“一报还一报”放弃了占他人便宜的可能性。尽管这种机会有时是很有利可图的,但是在广泛的环境中,试图占便宜而引来的问题也多种多样。

在与“一报还一报”策略的接触中,如果一个规则用背叛试探是否可以占便宜,它就得冒被那些可激怒的规则报复的风险。如果双方的反击一旦开始,就很难使自己解脱。

最后,试图识别那些“随机”规则或者那些过分不合作的规则,并放弃与它们合作的努力,经常错误地导致放弃与其他一些规则的合作,而这些规则是可以被有耐心的规则,比如“一报还一报”这种规则挽救的。

当然,我们知道就有限的次数与对局者而言,“一报还一报”并不是最优策略,但却是整体得分最多的策略,它的成功在于它良好的适应性。

由于一个特定策略的有效性不仅取决于它自己的特性,而且取决于它要相遇的其他策略的特性。因此,单一竞赛的结果是不能最后说明问题的。

当第一轮的比赛结束后,艾克斯罗德把第一次的结果公开发表,并决定邀请更多的人再做一次游戏。第二次征集到了62个程序,加上他自己的随机程序,又进行了一次竞赛。第二轮比赛比第一轮有了一个更高的起点,因为每个人(程序)都已经从第一次比赛中成功的策略中获取经验,因此人们更期望它的结果对于指导下一轮的成功更有帮助。

令人意外的是第二轮胜出的仍然是“一报还一报”。但与第一轮不同的是,这一轮比赛由于绝大部分人都知道“一报还一报”的胜出事实,最有趣而令人惊奇的是,许多人在“一报还一报”原则的基础上试图改进与优化它,不过,令人惊奇的是这些提交的复杂程序没有一个能够表现得像原本的“一报还一报”那样好。既能占便宜又不会付出太大的代价是第二轮竞赛中任何一个参赛程序都想实现而没能够实现的。

“一报还一报”显然是经济、实用而且非常成功的策略。

第二轮竞赛不仅验证了第一轮比赛分析中得出的结论和发现,还使参赛者从第一轮竞赛的经验中吸取了自己的教训,但不同的人得到的教训不同。