在均衡博弈中,一个优势策略优于任何其他策略;同样,一个劣势策略则劣于任何其他策略。如果你有一个优势策略,你可以选择采用;同样,假如你有一个劣势策略,你应该避免采用。
从爱情故事中解读优劣策略与均衡
美国著名批判现实主义作家欧·亨利在其小说《麦吉的礼物》中描述了这样一个爱情故事:
新婚不久的妻子和丈夫,很是穷困潦倒。除了妻子那一头美丽的金色长发,丈夫那一只祖传的金怀表,便再也没有什么东西可以让他们引以为傲了。虽然生活很累很苦,他们却彼此相爱至深。每个人关心对方都胜过关心自己。为了对方,他们愿意奉献和牺牲自己的一切。
明天就是圣诞节了,小两口都是身无余钱。为了让爱人过得好一点,两个人都想悄悄准备一份礼物给对方。丈夫卖掉了心爱的怀表,买了一套漂亮发卡,去配妻子那一头金色长发。妻子剪掉心爱的长发,拿去卖钱,为丈夫的怀表买了表链。
最后,到了交换礼物的时刻,他们无可奈何地发现,自己如此珍视的东西,对方已作为礼物的代价而出卖了。花了惨痛代价换回的东西,竟成了无用之物。出于无私爱心的利他主义行为,结果却使得双方的利益同时受损。
欧·亨利在小说中写道:“聪明的人,送礼自然也很聪明。大约都是用自己有余的物事,来交换送礼的好处。然而,我讲的这个平平淡淡的故事中的两个傻孩子,却是笨到极点,彼此为了对方,白白牺牲了他们屋檐下最珍贵的财富。”
从这段文字看,欧·亨利似乎并不认为这小两口是理性的。且让我们暂时抛开爱情的温馨,单从利益的角度来解读。
冯·诺伊曼认为:在一个二人零和游戏中,总会找到一种明确而合乎理性的方法以获得个人的最佳利益,而这个“明确而合乎理性的方法”就是“极小极大原理”。诺伊曼的这一发现可能是博弈论最重要的核心内容。
何谓“极小极大原理”呢?用通俗一点儿的话说就是,你想赢得竞争,可能有几种选择,你当然愿意选择受益最大的一种;但是你的选择不能不考虑到对方的决策,因为他跟你一样,也是这样想的,所以你必须把对方的选择也考虑清楚。比如上面这个爱情故事中,因为双方都以自己的付出视为最大的受益,所以面对付出和不付出这两种策略选择,他们都会选择付出,选择了付出,无论对方作出何种决策,其效果都比另一种——不付出,要好,此时的付出策略就被称为这场博弈中的“优势策略”。反之,不付出是这场博弈的“劣势策略”,也即在博弈中,不论对方采取什么策略,在我们可能采取的策略中,对自己严格不利的策略,劣势策略是我们在日常生活中不可以选择的行动。显然,如果双方都选择优势策略,那么这个博弈就是有迹可循、可以预测的,也就是所谓“理性的解”,并形成某种“定式”,即均衡。
实际上,上面的例子有一个优势策略均衡。通俗地说,在优势策略均衡中,不论所有其他参与人选择什么策略,一个参与人的优势策略都是他的最佳策略。显然,这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。
再举个常见的例子:一名篮球前锋和队友在篮下面对着对方的一个后卫时,形成了二打一的局面。该前锋可以选择直接投篮,也可以选择传球给队友,根据经验,传球过人的成功率更大,那么传球就是该前锋的优势策略。即某些时候它胜于其他策略,且任何时候都不会比其他策略差。
如果一个球员,无论其他球员怎么做,他的策略都会高出一筹,那么这个球员就有一个优势策略。当然如果一个球员有这么一个优势策略,他的决策就会变得非常简单,只需直接采用该策略而完全不必考虑对手的应对策略。
还有一个要注意的问题,即采用优势策略得到的最坏结果并不一定比采用另外一个策略得到的最佳结果要好,这是很多博弈论普及书中容易出错的一个问题。应该说,对局者所采用的优势策略在对方采取任何策略时,总能够显示出优势。
同时行动中的优势策略
博弈实际上就是互动的策略性行为,在每一个利益对抗中,人们都是在寻求满足自身利益最大化的优势策略。另外,博弈的精髓在于参与者的策略相互影响、相互依存。这种互动通过两种方式体现出来。
其中一种互动方式是同时行动。比如囚徒困境故事中的情节,参与者同时出招,完全不知道其他人走哪一步。不过,每个人必须心中有数,知道这个博弈游戏存在其他参与者,其他参与者也非常清楚这一点。因此,每个人必须设想一下若是自己处在其他人的位置,会作出什么反应,从而预计自己这一步会带来什么结果。他选择的最佳策略也是这一全盘考虑的一个组成部分,无论对方采取何种策略,均应采取自己的优势策略。这正是博弈论研究的主题,为了理解这一点,我们来看一个新闻大战的案例。
美国的两大杂志《时代》和《新闻周刊》在每个星期都会暗自较劲,对于作为周刊的《时代》来说,作出引人注目的封面故事是非常重要的。因为一个饶有趣味的封面,可以吸引站在报摊前的潜在买主的目光。所以说,《时代》的编辑们每个星期都会举行闭门会议,选择下一个封面故事。
其实,他们这么做的时候,《新闻周刊》的编辑们也在关起门来开会,选择下一个封面故事。换句话说,《新闻周刊》的编辑们知道《时代》的编辑们正在做与他们同样的事,而《时代》的编辑们也知道《新闻周刊》的编辑们知道这一点……这两家新闻杂志投入了一场策略博弈中。
由于《时代》与《新闻周刊》的行动是同时进行的,而双方也不得不在毫不知晓对手决定的情况下采取行动。如果等到彼此发现对方做什么时,再想做或改变什么就太迟了。当然,这个星期的输家很可能在下个星期竭力反扑,但是等到那时,或许已经出现了另外一种搏击模式,双方展开的又将是一场完全不同的博弈。
从《时代》和《新闻周刊》的新闻大战中我们可以看出,同时行动中的博弈策略与相继行动中的策略有很大不同。这种博弈相当于下棋时的一人一步的相继行动,每个参与者都必须向前展望,估计对手的意图,然后倒后推理,从而决定自己应该怎么走才会在这一轮中占据优势。这是一条线性的推理链:“假如我这么做,他就会那么做——若是他那样的话,我会这么反击”,依此类推。换句话说,你怎么走取决于对手的上一步行动。
那么,对于每个竞争者来说,应该怎样才能看穿所有那些错综复杂而又看不见的策略呢?
最重要的一点就是,你不要把其他参与者的未知行动看做像天气那样,具有与个人无关的不确定性。也就是说,对于两家周刊来说,为封面故事而做决定的概率与天气是否变坏的概率完全不同。区别在于,《时代》的编辑对《新闻周刊》有一个非常中肯的了解——另一个杂志的编辑与天气不同,他们是策略的博弈参与者,就跟《时代》的编辑自己一样。就算是同一个编辑也不会真的观察到另一个杂志的决定,但是他可以通过另一个杂志的视角思考这个问题,猜测对方现在在做什么。此时,寻找一个优势策略是首要任务。
我们假设本周有两个大新闻:一个是国会就预算问题吵得不可开交;另一个是发明了一种据说对艾滋病有特效的新药。当两家周刊的编辑们选择封面故事时,都会首先考虑的是哪一条新闻能更加吸引报摊前的买主(订户则无论采用哪一条新闻封面故事都会买这本杂志)。我们假设在报摊前的买中,有30%的人对预算问题感兴趣,70%的人对艾滋病新药感兴趣,每个人都只会掏钱买那本封面故事是自己感兴趣的新闻的杂志。如果两本杂志用了同一条新闻做封面,那么感兴趣的买主就会平分两部分,一部分买《时代》,而另一部分买《新闻周刊》。而如果一家用预算做封面故事,另一家用艾滋病新药做封面故事,那么买主就会是3:7。
这时,双方就开始积极行动,《时代》的编辑会进行如下推理:“如果《新闻周刊》采用艾滋病新药做封面故事,那么,我要是采用预算问题的话,我就会得到整个‘预算问题市场’(即全体读者的30%);但我要是采用艾滋病新药的话,我们两家就会平分‘艾滋病新药市场’(即我得到全体读者的35%),所以说,‘艾滋病新药’所带来的收入就会超过预算问题。如果《新闻周刊》采用预算问题,那么,我要是采用同样故事的话,我得到一半的读者,假设我采用艾滋病新药,就会得到70%的读者;这一次的方案会给我带来更大的收入。因此,不论对手采取什么策略我的优势策略,就是采用艾滋病新药做封面。”
由此可见,在那些不存在传统策略均衡的博弈中,仍然可以根据优势策略的逻辑找出均衡。只要有一方拥有优势策略,那么它将采用其优势策略,另一方则针对这个策略采用自己的最佳策略。
相继行动中的优势策略
在上一节中我们讨论了在同时行动中的优势策略这里我们再来讨论博弈的另一种互动形式——相继行动。每个参与者在轮到自己的时候,必须展望一下他的这一步行动将会给其他人以后的行动造成什么影响,对自己以后的行动造成什么影响。也就是说,相继行动的博弈中,每一个参与者必须预计其他参与者接下来会有什么反应,据此盘算自己的最佳招数。
我们先来看一个例子:
东晋时,桓玄执掌朝权后,任命卢循为永嘉太守。卢循表面受令,却暗中扩展势力。刘裕平定桓玄之乱后控扼东晋朝政,任命卢循为广州刺史,卢循的姐夫徐道覆为始兴相。
公元410年春,卢循和徐道覆趁刘裕北伐南燕,后方空虚之机,实施北征。他们率军在始兴会合,然后分东西二路北上,进入湘州(今长沙)与江州(今江西九江西南)诸郡,一路势如破竹,声威大震。徐道覆力主东进,卢循犹豫数日才勉强同意,遂自桑落洲(今江西九江东北)进抵淮口(今江苏南京西北秦淮河口),向兵力不过数千的建康逼近。
刘裕闻讯,急忙自北线前线返京,紧锣密鼓地部署防卫行动,来到长江边,刘裕对各位将领说:“贼兵如果从新亭直接挺进,那么他们的锋芒就不可阻挡,应该暂且回避一下,是胜是负也就不可推测了。如果他们回到西岸去停泊,就可以一战擒之了。”
徐道覆建议从新亭进军白石,然后烧掉战船登陆,分几路进攻刘裕。卢循打算采取尽可能保险的策略,对徐道覆说:“根据敌军的慌乱程度来看,他们自会在几天内崩溃散乱。现在,决定胜负也就是一个早上的事,一味凭侥幸在战场上投机取利,既不一定能战胜敌人,又会损兵折将,不如按兵不动。”
刘裕在城头遥望卢循的部队,最初看见他们向新亭方向移动,刘裕脸色稍变,恐怕卢循发动突然袭击。后来他看见敌军船只回到蔡州停泊下来,马上调动各路军队转移集中,砍伐树木在石头城和秦淮河口等地全部立起栅栏。同时命人尽快整修越城,兴筑查浦、药园、廷尉三座堡垒,派兵在那里把守。结果,卢循兵临建康近两月,兵疲粮乏,被迫于七月初退还浔阳,最后兵败投水自杀。
通过分析我们可以看出,在这场相继行动的战役中,卢循之所以失败,是因为他不应该受到对方状态的影响,一鼓作气,渡过长江,才是他的最优策略。作为进攻的一方,无论对方是已经调集了人马还是没有调来人马,他的策略都可以保证自己的锐气不被挫伤,并且制造最大的压力。
从上面这个例子中我们可以归纳为一个指导相继行动时的博弈的法则:假如你有一个优势策略,请照办,不要考虑你的对手会怎么做。假如你没有一个优势策略,但你的对手有,那么就假定他会采用这个优势策略,相应选择你自己最好的做法。
在已经确立了同时行动的优势策略的前提下,如果运用了相继行动的博弈,在采用优势策略的时候就必须留神。因为策略互动的本质已经改变,优势策略的概念就会完全不同。假如你有一个优势策略,无论你的对手选择怎么做,你按照这个策略做就行。如果你选择相继行动,而你的对手先行,你就应该选择自己的优势策略。这是你对你的对手每一个行动的最佳对策,也是对他选择的特定行动的最佳对策。但是,如果你先行,你就不会知道你的对手将会采取什么行动。而他会观察你的选择,同时作出自己的决定,所以说他的选择将会受到你的选择的影响。在一些情况下,如果采用优势策略以外的策略,你将会有更有效地施加这种影响。
当没有优势策略时
在博弈中,并不是所有的博弈者都有优势策略,哪怕这个博弈只有一个参与者。实际上,优势与其说是一种规律,不如说是一种例外。虽然出现一个优势策略可以大大简化行动的规则,但这些规则却并不适用于大多数现实生活中的博弈。此时我们必须运用其他原理来寻求解决之道。
我们知道一个优势策略优于任何其他策略,同样,一个劣势策略则劣于任何其他策略。如你有一个优势策略,你可以选择采用,并且知道你的对手若是有一个优势策略他也会采用;同样,假如你有一个劣势策略,你应该避免采用,并且知道你的对手若是有一个劣势策略,他同样会避免采用。
假如你只有两个策略可以选择,其中一个是劣势策略,另一个一定是优势策略。那么,你的策略,必须建立在一方拥有至少三个策略的博弈的基础之上,采用与选择优势策略做法完全不同的规避劣势策略的做法。也即在你没有优势策略的情况下,你要做的就是剔除所有劣势策略,不予考虑,如此一步一步做下去。
假如在博弈过程中,在较小的博弈里出现了优势策略,应该一步一步挑选出来。如这个过程以一个独一无二的结果告终,那就意味着你找到了参与者的行动指南以及博弈的结果。即便这个过程不会以一个独一无二的结果告终,它也会缩小整个博弈的规模,并把博弈的复杂程度降低了。
对利用优势策略方法与规避劣势策略方法进行简化之后,整个博弈的复杂程度已经降到最低限度,不能继续简化,而我们也不得不面对循环推理的问题。你的最佳策略要以对手的最佳策略为基础,反过来从你的对手的角度分析也是一样。在博弈中,无论是具有优势策略还是劣势策略,都是为了达到均衡的结果,关键是看你如何行动了。