48974200000007

第7章囚徒困境的启示(3)

素昧平生的一对男女偶尔相遇，接着在宾馆里春梦一场，天一亮就各自扬长而去，谁也不会忠于谁，彼此也不会为对方今后的不忠实而产生任何不快。其根本原因就在于这种一夜情，本身就是“一次性”的博弈。可是，如果男女双方由此一见钟情，决定发展成为恋人的关系，那么他们彼此的忠心就会有一定程度的增加。原因在于他们今后还要常常碰面，还有机会重复博弈。他们会像正常的恋人之间一样，在接下来的重复博弈中，有无数次的机会来对背叛行为做出惩罚。这就是一夜情与爱情之间的区别。

现代博弈论的发展在上述问题上提供了更深入的解释：每一次人际交往其实都可以简化为两种基本选择：合作还是背叛。在人际交往中普遍存在囚徒困境：双方明知合作带来双赢，但理性的自私和信任的缺乏导致合作难以产生。而且，如果博弈是一次性的，那么这必然加剧双方进行坦白的决心，选择相互背叛。

在这样的博弈中，背叛是个人的理性选择，但直接导致集体的非理性。似乎没有任何方法能够让我们逃脱两败俱伤的局面。难道人类注定要承受这个无法摆脱的噩梦吗？

答案是否定的。资深的博弈论专家罗伯特·奥曼在1959年指出，人与人的长期交往是避免短期冲突、走向协作的重要机制。

在任何博弈中，表现最好的策略直接取决于对方采用的策略，特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步对于当前一步的影响足够大，即未来是重要的。总的来说，如果你认为今后将难以与对方相遇，或者你不太关心自己未来的利益，那么，你现在最好背叛，而不用担心未来的后果。而现实生活中反复交往的人际关系，则是一种“不定次数的重复博弈”。奥曼通过自己的推导十分严密地证明，在较长的视野内，人与人交往关系的重复所造成的“低头不见抬头见”

的关系，可以使自私的主体之间走向合作。这可以解释许多商业行为。一次性的买卖往往发生在双方以后不再有买卖机会的时候，特点是尽量牟取暴利并且带欺骗性。而靠“熟客”、“回头客”便是通过薄利行为使得双方能继续合作下去。

博弈学专家告诉你

事实上，重复博弈也更逼真地反映了日常人际关系。在重复博弈中，合作契约的长期性能够纠正人们短期行为的冲动。这在日常生活里是具有普遍性的。

如果博弈没有尽头

有一个人去理发，剃头匠给他理得很草率。理完后，这人却付给剃头匠双倍的钱，什么也没说就走了。一个多月后的一天，这人又来理发。剃头匠还记得他上次多付了钱，觉得此人阔绰大方，为讨其欢心，多赚点钱，便竭力上心，周到细致，多用了一倍的工夫。理完后，这人便起身付钱，反而少给了许多钱。剃头匠不愿意，说：“上次我为您理发，理得很草率，您尚且给了我很多钱；今天我格外用心，为何反而少付钱呢？’’这人不慌不忙地解释道：“今天的钱，上次我已经付给你了；今天给你的钱，正是上次的。”说着大笑而去。

这个故事说明，有限次的囚徒困境，情况不同于无限次的囚徒困境的重复博弈。当临近博弈的终点时，采取不合作策略的可能性加大。即使参与人以前的所有策略均为合作策略，如果被告知下一次博弈是最后一次，那么肯定采取不合作的策略。

运用向前展望、倒后推理的原则，我们可以看到，一旦再也没有机会可以进行惩罚，合作就会告终。但是，谁也不愿意落在后面，在别人作弊的时候继续合作。假如真的有人仍然保持合作，最后他就只能自认倒霉。

既然没人想倒霉，合作也就无从开始。实际上，无论一个博弈将会持续多长时间。只要大家知道终点在哪里，结果就一定是这样。因为从一开始，两位参与者就应该向前展望，预计最后一步会是什么。在这最后一步，再也没有什么“以后”需要考虑，优势策略就是作弊。这最后一步的结果是一个不可避免的结论：既然没有办法影响这个博弈的最后一步，那么，在考虑对策的时候，倒数第二步实际上就会成为最后一步。而在这一步，作弊再次成为优势策略。理由是，位于倒数第二的这一步对最后阶段的策略选择毫无影响。因此，倒数第二步可以视为孤立阶段，单独进行考虑。对于任何孤立阶段，作弊都是一种优势策略。

深谙策略思维者懂得瞻前顾后，避免失足于最后一步。假如他预计自己会在最后一轮遭到欺骗，他就会提前一轮中止这一关系。不过，这么一来，倒数第二轮就会变成最后一轮，还是没法摆脱上当受骗的问题。

现在，最后两个阶段的情形已经确定。早期进行合作根本无从实现，因为两个参与者已经决心在最后两个阶段作弊。这么一来，在考虑对策的时候，倒数第三步实际上就会成为最后一步。遵循同样的推理，作弊仍是一种优势策略。这一论证一路倒推回去，不难发现，从一开始就不存在什么合作了。

但是在上面的故事中，剃头匠为什么会上当呢？在现实世界里，所有真实的博弈只会反复进行有限次，但正如剃头匠不知道客人下一次是否还会光顾一样，没有人知道博弈的具体次数。既然不存在一个确定的结束时间，那么这种合作关系就有机会继续下去，实现阶段性的成功合作。要想避免信任瓦解，千万不能让任何确定无疑的最后一轮出现在视野所及的地方。只要仍然存在继续合作的机会，背叛就会被抑制。

不可否认，这个世界存在一些“善良的”人，不管作弊可能带来什么样的利益，他们仍然选择合作。但是多数人都没有那么善良，而是按照自己的理性行事，在一个反复进行有限次的囚徒困境博弈里，他们会从一开始就作弊。这会使其他参与者很快看清楚其本质，并对之加以提防。于是，为了掩盖真相，或者是至少掩盖一会儿真相，他们不得不装出“善良”的样子。

博弈学专家告诉你

能在一个反复进行的囚徒困境中使信任出现的条件，就是作弊所得晚于合作破裂的代价之前出现。这么一来，作弊与合作相比哪一个更划算，就取决于现在与将来相比哪一个更重要。

签下带剑的契约

在每一个鼓励合作的方案里，通常都会包含某种惩罚作弊者的机制。

一个坦白且供出合作伙伴的囚徒可能遭到对方朋友的报复。若是知道外面会有什么报应等着自己，尽快逃脱牢狱之灾的前景也就不会显得那么诱人了。人人都知道，警察会威胁毒品贩子说如果不坦白就要释放他们。

这种威胁的作用在于，一旦他们被释放，卖毒品给他们的人就会认定他们一定是招供了而加以报复。在最初博弈之上增加惩罚机制的做法，其目的就是为了减少作弊的动机。

在博弈的结构里还存在其他类型的惩罚。一般而言，这种机制生效的原因在于博弈反复进行，这一回合作弊所得将导致其他回合所失。

归纳起来，在一次性的博弈当中没有办法达成互惠合作。合作破裂自然就会付出代价，这一代价会以日后损失的形式出现。假如这个代价足够大，作弊就会受到遏制，合作就会继续。

霍布斯对合作协议的观点是：“不带剑的契约不过是一纸空文。它毫无力量去保障一个人的安全。”如果囚徒困境只是一次性的博弈，那么签订协议是毫无意义的，其纳什均衡点并不会改变。可以签订协议的一个最基本的条件，就是博弈需要重复若干次，至少大于一次。

重复博弈与一般性的动态博弈是不同的。多轮动态博弈中，参与者能够了解到博弈的每一步中其他参与者的在自己选择某种策略下的行动，而重复博弈的参与者无法了解到在任何一步中，其他参与者的策略选择。

在重复型的囚徒困境中，签订合作协议并不困难，困难的是协议对博弈各方是否具有很强的约束力。任何协议签订之后，博弈参与者都有作弊的动机，因为至少在作弊的这一轮博弈中，可以得到更大的收益。

囚徒困境扩展为多人博弈时，暴露了一个更广泛的问题——“社会悖论”，或“资源悖论”。人类共有的资源是有限的，当每个人都试图从有限的资源中多拿一点儿时，就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞，都可以在社会悖论中得以解释。在这些问题中，关键是制定游戏规则来控制每个人的行为。

即使个体之间的博弈是完全无差异的，对局者之间绝对的平等也是不可能达到的，因而某些博弈对一方来说是典型的高成本、低回报：一方面，对局者在实际能力上存在不对称，双方互相背叛时，可能不是各得1分，而是强者得5分，弱者得0分，这样，弱者的报复就毫无意义；另一方面，即使对局双方确实旗鼓相当，但某一方可能怀有赌徒心理，认定自己更强大，采取背叛的策略能占便宜。美国密歇根大学的爱克斯罗德教授的分析忽视了这种情形，而这种事实或心理上的不平等恰恰在社会上引发了大量零和与负和博弈。

博弈学专家告诉你

从博弈论的角度看，法律就是通过第三方实施的行为规范，：其功能是或者通过改变当事人的选择空间改变博弈的结果，或者不改变博弈本身而改变人们的信念或对他人的行为预期，从而改变博弈的结果。

针锋祖对最有效

旅美作家林达讲过这样一个故事。

在美国，售报机都是一个铁盒子。所有的报纸都在里面，放一个硬币就可以全部打开，取一张之后再把它关上。作者说他第一次买报的时候基进硬币，一拉开盖子，发现所有的报纸都在他面前时，吓了一跳。因为根据他在中国的经验，这样的设计会使报纸几下子就被人拿光。但是，这是根据美国的国情设计的，美国人不会扔一个硬币拿两份报纸。而且作者很快发现了例外，中国人聚居地的饭店、商店门口，就是一种特殊的售报机，一个硬币只拿得一张报纸。关于此事，在美国的华人报纸上引发了诸多议论，其中一个华人讲述了在半小时里，他如何眼睁睁地看着同胞们“免费取光了一大堆报纸。

从“囚徒困境”的分析得知，合作比不合作对双方更有利，但是如果有人蓄意破坏合作，那么他可能暂时获得更大的利益。也就是说，在信息不完全的情况下，合作是不稳定的。如果没有外部强制力，参与者采取什么样的策略才可以更好地维持合作的稳定性呢？

对于这个问题，有这样一种答案。如果一方采取不合作的策略，另一方随即也采取不合作策略并且永远采取不合作策略，在博弈论里叫触发策略或冷酷策略。如果对方知道你的策略是触发策略，那么对方将不敢采取不合作策略，因为一旦他采取了不合作策略，双方便永远进入不合作的困境。因此，只要有人采取触发策略，那么双方均愿意采取合作策略。但是这个策略面临着这样一个问题：如果双方存在误解，或者由于一方发生选择错误，这个错误是无意的，那么结果将是双方均采取不合作的策略。也就是说，这种策略不给对方改正错误或解释错误的机会。比如针对华人的售报机，就不太可能改回原来的样子。

有没有更好的策略呢？罗伯特·爱克斯罗德教授发起了一个比赛，找到了答案。

第7章 囚徒困境的启示(3)

第7章囚徒困境的启示(3)