一个以善良、宽容为原则的策略要想在纷繁的环境中生存,它还必须具备有报复性和简单明了的特点。
任何一个处心积虑的策略和无条件纵容别人的策略都一定是失败的策略。
“一报还一报”的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。善良性防止它陷入不必要的麻烦,报复性使对方试着背叛一次后就不敢再背叛。宽容性有助于重新恢复合作。清晰性使它容易被对方理解,从而引出长期的合作关系。
不合作的规则,并放弃与它们合作的努力,经常错误地导致放弃与其他一些规则的合作,而这些规则是可以被有耐心的规则,比如“一报还一报”这种规则挽救的。
既能占便宜又不会付出太大的代价是第二轮竞赛中任何一个参赛程序都想实现而没能够实现的。
虽然“一报还一报”没有办法赢对方,但也十分接近,不会输的太多。这个策略总是鼓励合作,避免对立。跟其他的策略比起来,别的策略不是太苛刻,以至于与对手互相出卖而共受其害,要不然就是太宽容,以至于被占太多便宜。
骗子与傻瓜
我们知道就有限的次数与对局者而言,“一报还一报”并不是最优策略,但却是整体得分最多的策略,它的成功在于它良好的适应性。
“一报还一报”的策略在两次静态的群体中得到了很好的分数,那么在一个动态的进化的群体中,这种合作能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?
假设乙有一件事要甲帮他来做,不久以后,甲也有事去找乙,希望乙能帮忙,作为报答。结果乙嗤之以鼻,掉头就走。乙是个骗子。这种骗子接受了别人的恩惠,但不感恩图报,或者即使有所报答,但做得也很不够。和不分青红皂白的“利他”行为者相比,骗子的收获要大,因为它不花任何代价。当然,别人帮忙是件大好事,而帮助别人却要付出一些代价,还要花费一些宝贵的精力和时间。
假设人们在生活中只采取两种策略中的一种。我们暂且把这两种策略分别称为傻瓜和骗子。傻瓜只是热心帮助别人,不问对象只要对方需要。
骗子接受傻瓜的“利他”行为,但没有任何付出,也不报答。一个傻瓜群体中的任何一个傻瓜都可以指望别人帮助他的次数和他帮助别人的次数大约相等。因此,在傻瓜群体中,任何一个傻瓜的平均得分是正数。事实上,这些傻瓜都干得很出色,现在假设群体中出现了一个骗子。
由于他是惟一的骗子,他可以指望别人都为它效劳,而他从不报答别人给它的好处。它所获得的好处比任何一个傻瓜都高。
骗子的策略开始迅速扩散开来,傻瓜策略很快就要被骗子策略挤掉。这是因为骗子总归胜过傻瓜,不管它们在群体中的比例如何。譬如说,群体里傻瓜和骗子各占一半,在这样的群体里,傻瓜和骗子的平均得分都低于全部由傻瓜组成的群体里任何一个个体。
不过,骗子的境遇还是比傻瓜好些,因为骗子只管捞好处而从不付出任何代价,所不同的只是这些好处有时多些,有时少些而已。当群体中骗子所占的比例达到90%时,所有个体得到的好处都会变得很低:不管骗子也好,傻瓜也好。
即使是这样,骗子还是比傻瓜合算。哪怕整个群体濒于灭绝,傻瓜的情况永远不会比骗子好。因此,如果我们考虑的只限于这两种策略,没有什么东西能够阻止傻瓜的灭绝,而傻瓜灭绝后,骗子赖以生存的环境没有了,那么骗子也会灭绝掉,整个群体也就难逃覆灭的厄运。
斤斤计较者的策略
现在,我们假设还有第三种称为斤斤计较者的策略。斤斤计较者愿意帮助没有打过交道的个体,而且更不忘记报答。可是哪个骗子骗了他,他就要牢记在心,以后不肯再为这个骗子服务。在由斤斤计较者和傻瓜组成的群体中,前者和后者混在一起,难以分辨。
两者都为别人做好事,两者的平均得分都同样高。在一个骗子占多数的群体中,一个孤单的斤斤计较者不能取得多大的成功。他会花掉很大的精力去为他遇到的大多数人服务——由于他愿意为从未打过交道的个体服务,他要等到为每一个个体都服务过一次才能罢休。
因为除他以外都是骗子,因此没有谁愿意为他服务,他也不会上第二次当。如果斤斤计较者少于骗子,斤斤计较者的基因就要灭绝。
可是,斤斤计较者一旦能够使自己的队伍扩大到一定的比例,他们遇到自己人的机会就越来越大,甚至足以抵消他们为骗子效劳而浪费掉的精力。
在达到这个临界比例之后,他们的平均得分就比骗子高,从而加速骗子的灭亡。当骗子尚未全部灭绝之前,他们灭亡的速度会缓慢下来,在一个相当长的时期内成为少数派。因为对已经为数很少的骗子来说,他们再度碰上同一个斤斤计较者的机会很小。
斤斤计较的策略被证明是一种进化上稳定的策略,斤斤计较者优越于骗子或傻瓜,因为在斤斤计较者占多数的群体中,骗子或傻瓜都难以逞强。
成功也是可以“传染“的
在上面这个情形中,我们不难看出“斤斤计较者”所采用的策略就是“一报还一报”,这个故事所演示的正是“一报还一报”在“仿真”的生存环境中的适应性。如果我们把这个演示编写成一个游戏程序进行模拟,就会很有意思。
模拟开始时傻瓜占大多数,斤斤计较者占少数,但正好在临界频率之上;骗子也属少数,与斤斤计较者的比例相仿。骗子对傻瓜进行的无情剥削首先在傻瓜群体中触发了剧烈的震荡。骗子激增,随着最后一个傻瓜的死去而达到高峰。
但骗子还要应付斤斤计较者。在傻瓜急剧减少时,斤斤计较者在日益取得优势的骗子的打击下也缓慢地减少,但仍能勉强地维持下去。在最后一个傻瓜死去之后。骗子不再能够跟以前一样那么随心所欲地进行自私的剥削。
斤斤计较者在抗拒骗子剥削的情况下开始缓慢地增加,并逐渐取得稳步上升的势头。接着斤斤计较者突然激增,骗子从此处于劣势并逐渐接近灭绝的边缘。
由于处于少数派的有利地位同时因而受到斤斤计较者怀恨的机会相对地减少,骗子这时得以苟延残喘。
不过,骗子的覆灭是不可挽回的。它们最终慢慢地被淘汰,留下斤斤计较者独占整个群体。说起来似乎有点自相矛盾,在最初阶段傻瓜的存在实际上威胁到斤斤计较者的生存,因为傻瓜的存在带来了骗子的短暂繁荣。
“仿真生存“的模拟
艾克斯罗德也做了一个同样的“仿真生存”的模拟,以检验“一报还一报”在多样化的环境中能否表现得很好?
一些规则将由于它们不太成功而不再出现在未来的竞赛中,而那些成功的规则将继续出现。这样的一系列竞赛,有助于我们分析大部分较为成功的参赛规则在环境下的应用。这个分析是对一个规则的性能的很严格的检验,因为继续的成功要求这个规则必须与其他成功的规则很好地相处。
成功的参赛规则更有可能在下一轮中被采用,而不成功的规则很少再被采用。这完全是达尔文进化论的一种模式。例如在第一轮竞赛中一个规则得分是另一个规则的两倍,那么在下一轮中应用这个规则的次数就是另一个规则的两倍。
因此,像“随机”程序在第二代中就显得不重要了,而“一报还一报”和其他名列前茅的规则的应用就会多起来。
在人类活动中,一个不成功的策略在将来不太可能出现的原因有几个:
一个可能是人们会尝试不同的策略,然后坚持使用那些看来成功的策略。
另一个可能是使用一种策略的人看到另一些策略更为成功,他就转而使用更为成功的策略。
还有一种可能则是一个占据关键地位的人,如政府官员或公司经理,如果他采用的策略不是很成功,他就会被赶下台。
现实生活中,人们对自己所采用策略的选择是怎样的一种方式呢?通常会有以下几种方式:第一,试行。人们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。
第二,遗传。一个策略如果合作性好,也就意味着能得到相对高的回报,那么下次就会有更多的人使用它。
第三,学习。比赛过程就是对策者相互学习的过程,“一报还一报”的策略好,因此愿意学的人自然就多。
因此在人类事务中的学习、模仿和选择使得这一过程得以进行,而相对不成功的策略将来很少有机会能再出现。对于囚犯困境竞赛,这个过程的模拟实际上是相当简单的。一个策略表现得越好,所占的比例就会增加越多。
这些结果显示了一个很有趣的过程。首先发生的是名列最后几名的规则到第五代时就剩下原来的一半,而名列中间的规则保持原来规模,名列前茅的规则却逐渐增加。到了第50代,名列最后1/3的规则实质上已经消失,大部分名列中间的规则开始下降,而名列前1/3的规则在继续增长。
实验结果很有趣。“一报还一报”原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。而一些程序在进化过程中就消失掉了。
5%或更多成员是“一报还一报”的,这些合作者就能生存,而且只要他们的得分超过群体的总平均分,这个合作的群体就会越来越大,最后蔓延到整个群体。
反之,无论不合作者在一个合作者占多数的群体中有多大比例,不合作者都是不可能自下而上发展的。
这就说明,人类社会向合作进化的车轮是不可逆转的,群体的合作性越来越大。
“傻子”在这个世界一定是无法生存的,因为“傻子”代表“利他”,而“利他”必须“损己”。
在一个资源稀缺的世界,任何“利他”行为都是以“损己”为代价的,可以说“利他”的机会成本就是“损己”,而“损己”的极致便是让出你的生存空间给别人。所以,最后的结局,一定是“利他”的“傻子”逐渐地消失。
而“骗子”在“傻子”消失之后由于没有了其生存的依托也将自然地走向消失。最后这个世界的生物种群就构成了一个由“斤斤计较者”所组成的“食物链”——现实存在的世界。当然,“傻子”和“骗子”并非完全消失,即便“斤斤计较者”有时也会偶尔地充当一回“傻子”和“骗子”,比如说,有人对你说“你应该‘利他’”,那么你一定是碰到了一位“骗子”,他无非是想占你的便宜而已,如果你信了他的话,你也就充当了一回“傻子”。
但由于“斤斤计较者”把握的原则是“互惠”,他给出的“无偿”机会只有一次,不会有第二次,这就迫使其对手也不得不采取同样的交易规则,否则交易就会中断,不再延续。于是,这社会(或市场)就出现了走向公正、有序的转机。
“一报还一”的缺陷
尽管“一报还一报”一直很成功,它还不能称为对待囚犯困境的理想策略。首先,“一报还一报”以及其他善良策略要在未来影响足够大时才有效。但是即使这样,也没有能成为独立于其他人所采用的策略之外的理想策略。在一些极端的情况下,如在没有足够的其他人回报它的最初合作的情况下,“一报还一报”就会走向相反的结果。“一报还一报”确实也有它的弱点。
比如,对方一旦背叛,“一报还一报”总是以背叛回报,如果对方同样的回应,结果将会是无止境的交替背叛。在这一点上“一报还一报”是不够宽容的。但是,“一报还一报”对待那些随机反应的规则,又太宽容了。
还有一点,就是这个策略太容易挑起报复的行动了。在电脑的世界里,它的运作似乎很完美,但是在现实的世界中,人的情绪反应、大意错误实在是太容易发生了。如果有什么误解或错误发生,报复行动仍然无法避免。而且,一旦落入这种报复的循环之后,双方就比较难跳出这种恶性循环了。
然而,在众多被用来设计取胜的复杂策略所组成的多样性环境中,“一报还一报”确实是表现得很好。
怎样改良“一报还一报”
虽然“一报还一报”似乎是一种逃脱囚犯两难困境的好方法,但是为了解决它易被挑起报复的缺陷,于是有人提出建立一种“改良式的一报还一报”。这种改良式的方法强调信任以及宽容,对于对方前几次的侵犯行为都当做是其无心之失。直到这种行为屡次出现,并且超出预定的次数或比例之后,才采取报复行动。至于如何决定这种脱轨行动的上限,这得看对方过去的纪录,或者比较其他类似团体的失误比例。
当游戏中考虑到随机干扰,即对策者由于误会而开始互相背叛的情形时,即以一定的概率不报复对方的背叛;并实行“悔过的一报还一报”,即以一定的概率主动停止背叛。群体所有成员处理随机环境的能力越强,“悔过的一报还一报”效果越好,“宽大的一报还一报”效果越差。
比如说,某客户与你们往来频繁,一向信誉良好,与你们合作愉快。三个月前却突然有逾期付款的现象。你们虽然注意到这点,倒是并不意,认为这是偶发事件。可是这三个月以来,该公司类似的现象出现了三次,比例之高显然已经超过你们其他优良客户的平均纪录。那么这可能就是你们该采取行动的时候了。