第8章策略选择：任何情境下都有优势策略 (1)

书签收藏评论目录封面

第三章策略选择：任何情境下都有优势策略 (1)

人们经常处于均衡博弈中，一个优势策略优于任何其他策略；同样，一个劣势策略则劣于任何其他策略。如果你有一个优势策略，你可以选择采用；同样，假如你有一个劣势策略，你应该避免采用。

“极小极大原理”：没有最差，只有更优

美国著名批判现实主义作家欧·亨利在其小说《麦吉的礼物》中描述了这样一个爱情故事：

新婚不久的妻子和丈夫，穷困潦倒。除了妻子那一头美丽的金色长发，丈夫那一只祖传的金怀表，便再也没有什么东西可以让他们引以为傲了。虽然生活很累很苦，他们彼此相爱至深。每个人关心对方都胜过关心自己。为了对方，他们愿意奉献和牺牲自己的一切。

明天就是圣诞节了，小两口都是身无余钱。为了让爱人过得好一点，两个人都想悄悄准备一份礼物给对方。丈夫卖掉了心爱的怀表，买了一个漂亮发卡，去配妻子那一头金色长发。妻子剪掉心爱的长发，拿去卖钱，为丈夫的怀表买了表链。

最后，到了交换礼物的时刻，他们无可奈何地发现，自己如此珍视的东西，对方已作为礼物的代价而出卖了。花了惨痛代价换回的东西，竟成了无用之物。出于无私爱心的利他主义行为，结果却使得双方的利益同时受损。

欧·亨利在小说中写道：“聪明的人，送礼自然也很聪明。大约都是用自己有余的物事，来交换送礼的好处。然而，我讲的这个平平淡淡的故事中的两个傻孩子，却是笨到极点，彼此为了对方，白白牺牲了他们屋檐下最珍贵的财富。”

从这段文字看，欧·亨利似乎并不认为这小两口是理性的。且让我们暂时抛开爱情的温馨，单从利益的角度来解读。

冯·诺伊曼认为：在一个二人零和游戏中，总会找到一种明确而合乎理性的方法以获得个人的最佳利益，而这个“明确而合乎理性的方法”就是“极小极大原理”。诺伊曼的这一发现能是博弈论最重要的核心内容。

何谓“极小极大原理”呢？用通俗的话说就是，你想赢得竞争，可能有几种选择，你当然愿意选择受益最大的一种；但是你的选择不能不考虑到对方的决策，因为他跟你一样，也是这样想的，所以你必须把对方的选择也考虑清楚。比如上面这个爱情故事中，因为双方都以自己的付出视为最大的受益，所以面对付出和不付出这两种策略选择，他们都会选择付出，选择了付出，无论对方作出何种决策，其效果都比不付出要好，此时的付出策略就被称为这场博弈中的“优势策略”。反之，不付出是这场博弈的“劣势策略”，即在博弈中，不论对方采取什么策略，在我们可能采取的策略中，对自己严格不利的策略。劣势策略是我们在日常生活中不可以选择的行动。显然，如果双方都选择优势策略，那么这个博弈就是有迹可循、可以预测的，也就是所谓“理性的解”，并形成某种“定式”，即均衡。

实际上，上面的例子有一个优势策略均衡。通俗地说，在优势策略均衡中，不论所有其他参与人选择什么策略，一个参与人的优势策略都是他的最佳策略。显然，这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。

一名篮球前锋和队友在篮下面对着对方的一个后卫时，形成了二打一的局面。该前锋可以选择直接投篮，也可以选择传球给队友，根据经验，传球过人的成功率更大，那么传球就是该前锋的优势策略。即某些时候它胜于其他策略，且任何时候都不会比其他策略差。

如果一个球员，无论其他球员怎么做，他的策略都会高出一筹，那么这个球员就有一个优势策略。当然如果一个球员有这么一个优势策略，他的决策就会变得非常简单，只需直接采用该策略而完全不必考虑对手的应对策略。

还有一个要注意的问题，即采用优势策略得到的最坏结果并不一定比采用另外一个策略得到的最佳结果要好，这是很多博弈论普及书中容易出错的一个问题。应该说，对局者所采用的优势策略在对方采取任何策略时，总能够显示出优势。

同时行动中的优势策略：聚焦对手的上一步行动

博弈实际上就是互动的策略性行为，在每一个利益对抗中，人们都是在寻求满足自身利益最大化的优势策略。另外，博弈的精髓在于参与者的策略相互影响、相互依存。这种互动通过两种方式体现出来。

其中一种互动方式是同时行动。比如囚徒困境故事中的情节，参与者同时出招，完全不知道其他人走哪一步。不过，每个人必须心中有数，知道这个博弈游戏存在其他参与者，其他参与者也非常清楚这一点。因此，每个人必须设想一下若是自己处在其他人的位置，会作出什么反应，从而预计自己这一步会带来什么结果。他选择的最佳策略也是这一全盘考虑的一个组成部分，

无论对方采取何种策略，均应采取自己的优势策略。这正是博弈论研究的主题，为了理解这一点，我们来看一个新闻大战的案例。

美国的两大杂志《时代》和《新闻周刊》在每个星期都会暗自较劲，对于作为周刊的《时代》来说，作出引人注目的封面故事是非常重要的。因为一个饶有趣味的封面，可以吸引站在报摊前的潜在买主的目光。所以说，《时代》的编辑们每个星期都会举行闭门会议，选择下一个封面故事。

其实，他们这么做的时候，《新闻周刊》的编辑们也在关起门来开会，选择下一个封面故事。换句话说，《新闻周刊》的编辑们知道《时代》的编辑们正在做与他们同样的事，而《时代》的编辑们也知道《新闻周刊》的编辑们知道这一点……这两家新闻杂志投入了一场策略博弈中。

由于《时代》与《新闻周刊》的行动是同时进行的，双方不得不在毫不知晓对手决定的情况下采取行动。如果等到彼此发现对方做什么时，再想做或改变什么就太迟了。当然，这个星期的输家很可能在下个星期竭力反扑，但是等到那时，或许已经出现了另外一种搏击模式，双方展开的又将是一场完全不同的博弈。

从《时代》和《新闻周刊》的新闻大战中我们可以看出，同时行动中的博弈相当于下棋时的一人一步的相继行动，每个参与者都必须向前展望，估计对手的意图，然后倒后推理，从而决定自己应该怎么走才会在这一轮中占据优势。这是一条线性的推理链：“假如我这么做，他就会那么做——若是他那样的话，我会这么反击。”换句话说，你怎么走取决于对手的上一步行动。

那么，对于每个竞争者来说，应该怎样才能看穿所有那些错综复杂而又看不见的策略呢?

最重要的一点就是，你不要把其他参与者的未知行动看做像天气那样，具有与个人无关的不确定性。也就是说，对于两家周刊来说，为封面故事而做决定的概率与天气是否变坏的概率完全不同。区别在于，《时代》的编辑对《新闻周刊》有一个非常中肯的了解——另一个杂志的编辑与天气不同，他们是策略的博弈参与者，就跟《时代》的编辑自己一样。就算是同一个编辑也不会真的观察到另一个杂志的决定，但是他可以通过另一个杂志的视角思考这个问题，猜测对方现在在做什么。此时，寻找一个优势策略是首要任务。

我们假设本周有两个大新闻：一个是国会就预算问题吵得不可开交，另一个是发明了一种据说对艾滋病有特效的新药。当两家周刊的编辑们选择封面故事时，都会首先考虑的是哪一条新闻能更加吸引报摊前的买主(订户则无论采用哪一条新闻封面故事都会买这本杂志)。我们假设在报摊前的买主中，有30％的人对预算问题感兴趣，70％的人对艾滋病新药感兴趣，每个人都只会掏钱买自己感兴趣的杂志。如果两本杂志用了同一条新闻做封面，那么感兴趣的买主就会平分两部分，一部分买《时代》，而另一部分买《新闻周刊》。如果一家用预算做封面故事，另一家用艾滋病新药做封面故事，那么买主就会是3∶7。

这时，双方就开始积极行动，《时代》的编辑会进行如下推理：“如果《新闻周刊》采用艾滋病新药做封面故事，那么，我要是采用预算问题的话，我就会得到整个‘预算问题市场’(即全体读者的30％)；我要是采用艾滋病新药的话，我们两家就会平分‘艾滋病新药市场’(即我得到全体读者的35％)，所以说，‘艾滋病新药’所带来的收入就会超过预算问题。如果《新闻周刊》采用预算问题，那么，我要是采用同样故事的话，我得到一半的读者，假设我采用艾滋病新药，就会得到70％的读者，这一次的方案会给我带来更大的收入。因此，不论对手采取什么策略我的优势策略，就是采用艾滋病新药做封面。”

由此可见，在那些不存在传统策略均衡的博弈中，仍然可以根据优势策略的逻辑找出均衡。只要有一方拥有优势策略，那么它将采用其优势策略，另一方则针对这个策略采用自己的最佳策略。

相继行动中的最优策略

在上一节中我们讨论了同时行动中的优势策略，这里我们讨论博弈的另一种互动形式——相继行动。每个参与者在轮到自己的时候，必须展望一下他的这一步行动将会给其他人以后的行动造成什么影响，对自己以后的行动造成什么影响。也就是说，相继行动的博弈中，每一个参与者必须预计其他参与者接下来会有什么反应，据此盘算自己的最佳招数。

《史记》中记载了“田忌赛马”的故事。

田忌经常与齐威王及诸公子赛马，设重金赌注。但每次田忌和齐王赛马都会输，原因是田忌的马比齐王的马稍逊一筹。孙膑通过观察发现，齐王和田忌的马大致可分为上、中、下三等，于是，孙膑对田忌说：“您只管下大赌注，我能让您取胜。”田忌相信并答应了他，与齐王和诸公子用千金来赌胜。比赛即将开始，孙膑说：“现在用您的下等马对付他们的上等马，拿您的上等马对付他们的中等马，拿您的中等马对付他们的下等马。”三场比赛过后，田忌一场落败而两场得胜，最终赢得齐王的千金赌注。

后来，田忌把孙膑推荐给齐威王。齐威王向他请教兵法后，就请他当自己的老师，孙膑的才学有了更宽广的用武之地。

同样是三匹马，由于选择的配置方法不同，结果就大不相同。田忌的马要比齐王的马低劣，在这样的约束前提下，孙膑只是利用选择配置的不同就赢得了比赛。在做选择的过程中，我们应该学习“田忌赛马”中相继行动的优势策略。

每个参与者在轮到自己的时候，必须展望一下他的这一步行动将会给其他人以后的行动造成什么影响，对自己以后的行动造成什么影响。也就是说，相继行动的博弈中，每一个参与者必须预计其他参与者接下来会有什么反应，据此盘算自己的最佳招数。

东晋时，桓玄执掌朝权后，任命卢循为永嘉太守。卢循表面受令，却暗中扩展势力。刘裕平定桓玄之乱后掌控东晋朝政，任命卢循为广州刺史，卢循的姐夫徐道覆为始兴相。

公元410年春，卢循和徐道覆趁刘裕北伐南燕，后方空虚之机，实施北征。他们率军在始兴会合，然后分东西二路北上，进入湘州(今长沙)与江州(今江西九江西南)诸郡，一路势如破竹，声威大震。徐道覆力主东进，卢循犹豫数日才勉强同意，遂自桑落洲(今江西九江东北)进抵淮口(今江苏南京西北秦淮河口)，向兵力不过数千的建康逼近。

刘裕闻讯，急忙自北线前线返京，紧锣密鼓地部署防卫行动。来到长江边，刘裕对各位将领说：“贼兵如果从新亭直接挺进，那么他们的锋芒就不可阻挡，应该暂且回避一下，是胜是负也就不可推测了。如果他们回到西岸去停泊，就可以一战擒之了。”

徐道覆建议从新亭进军白石，然后烧掉战船登陆，分几路进攻刘裕。卢循打算采取尽可能保险的策略，对徐道覆说：“根据敌军的慌乱程度来看，他们自会在几天内崩溃散乱。现在，决定胜负也就是一个早上的事，一味凭侥幸在战场上投机取利，既不一定能战胜敌人，又会损兵折将，不如按兵不动。”

刘裕在城头遥望卢循的部队，最初看见他们向新亭方向移动，刘裕脸色稍变，恐怕卢循发动突然袭击。后来他看见敌军船只回到蔡州停泊下来，马上调动各路军队转移集中，砍伐树木在石头城和秦淮河口等地全部立起栅栏，同时命人尽快整修越城，兴筑查浦、药园、廷尉三座堡垒，派兵在那里把守。结果，卢循兵临建康近两月，兵疲粮乏，被迫于七月初退还浔阳，最后兵败投水自杀。

通过分析我们可以看出，在这场相继行动的战役中，卢循之所以失败，是因为他不应该受到对方状态的影响，一鼓作气，渡过长江，才是他的最优策略。作为进攻的一方，无论对方是已经调集了人马还是没有调来人马，他的策略都可以保证自己的锐气不被挫伤，并且制造最大的压力。

从上面这个例子中，我们可以归纳出一个指导相继行动时的博弈法则：假如你有一个优势策略，请照办，不要考虑你的对手会怎么做。假如你没有一个优势策略，但你的对手有，那么就假定他会采用这个优势策略，相应选择你自己最好的做法。

第8章 策略选择：任何情境下都有优势策略 (1)

第8章策略选择：任何情境下都有优势策略 (1)