书城自然科学非读不可的博弈论
1722100000014

第14章 警察与小偷博弈

)第一节 博弈故事 防小偷地图

据报道,2006年初杭州市民孙先生在该市各大知名论坛上建立了一个电子版“防小偷地图”,点开该地图网页,只要动动鼠标,就能知道杭州哪里最容易遭贼。这张地图问世以来,点击率迅速飙升。

这张电子版的“防小偷地图”是一个三维的杭州方位图,上面较准确地反映了杭州各条大街小巷及商场建筑。通过点击标注,网民们可以看到放大的该路段,具体可以细到某一幢大楼的名称。

除了地图上已标注的那些易被盗的地点外,网民还可以把自己知道的小偷出没的地方随意地进行标注。截至2006年3月被广泛报道时为止,已经有40多人在该地图上添加了新的防盗点。不仅地段标注特别详细,而且连小偷的活动时间、作案惯用手法都列得一清二楚。

针对网民的防盗地图,《南京晨报》的文章却问:“为何没有‘警方版防偷图’?”按说,小偷的情况,警察了解的肯定比普通市民多,他们怎么就没有想到设计一个防偷图呢?实际上,问题并没有这么简单。《时代商报》的评论就指出,警方如果公布类似的“小偷地图”,很可能会打草惊蛇。当小偷也看到地图的时候,肯定会转移战场。这个回答指出了问题的另一个侧面,但是并不足够。

要想真正把这个问题说清楚,我们需要用到博弈论中的一个模型—警察与小偷博弈。

)第二节 博弈解析 警察抓小偷的博弈

警察与小偷博弈的模型如下:

某个小镇上只有一名警察,他负责整个小镇的治安。现在我们假定,小镇的一头有一家酒馆,另一头有一家银行。再假定该地只有一个小偷。因为分身乏术,警察一次只能在一个地方巡逻;而小偷一次也只能去一个地方。若警察选择去小偷偷盗的地方巡逻,就能把小偷抓住;而如果小偷选择去没有警察巡逻的地方偷盗,就能够偷窃成功。

假定银行需要保护的财产价格为2万元,酒馆需要保护的财产价格为l万元。警察怎么巡逻才能使效果最好?

一种最容易被警察采用而且确实也更为常见的做法是:警察对银行进行巡逻。这样,警察可以保住2万元的财产不被偷窃。但是假如小偷去了酒馆,偷窃一定会成功。这种做法是警察的最好做法吗?答案是否定的,因为我们完全可以通过博弈论的知识,对这种策略加以改进。

警察的一个最好的策略,是抽签决定去银行还是酒馆。因为银行的价值是酒馆的两倍,所以用两个签代表,比如抽到l、2号签去银行,抽到3号签去酒馆。这样警察有2/3的机会去银行进行巡逻,l/3的机会去酒馆。

而在这种情况下,小偷的最优策略是:同样以抽签的办法决定去银行还是去酒馆偷盗。与警察不同的是,抽到1、2号签去酒馆,抽到3号签去银行。这样小偷有1/3的机会去银行,2/3的机会去酒馆。

警察与小偷之间的博弈,为我们提供了混合策略的思路。所谓混合策略,是指参与者采取的不是唯一的策略,而是其策略空间上的概率分布。最常见的混合策略就是猜硬币游戏。比如在足球比赛开场,裁判将手中的硬币抛掷到空中,让双方队长猜硬币落下的正反面。由于硬币落下后是正是反是随机的,概率应该都是1/2,那么,猜硬币游戏的参与者选择正反的概率都是1/2,这时博弈达到混合策略的均衡。

警察与小偷博弈

)第三节 博弈活用 打破惯性,随机应变

随机策略如同章法

警察与小偷博弈中的随机策略在很多时候确实可以帮助参与者取得成功,因为每一个参与者在博弈中都会进行精心的考虑才会作出决策,每个人都会根据对方可能采取的策略而进行周全策划。

在生活中,随机策略可以帮助参与者混淆对方的视线,从而获得胜利。

天宝十四年(公元755年)底,安禄山假托承旨讨杨国忠,起兵十五万造反,派遣叛将令狐潮率重兵包围了雍丘(今河南杞县)。为了保卫雍丘,守将张巡留1000人守城,自己带领1000精兵,打开城门冲出。张巡身先士卒,冲进敌阵猛砍,兵士个个奋勇。叛军做梦也没想到张巡敢冲出城,措手不及,被杀得人仰马翻。

为了尽早攻下雍丘,令狐潮于第二天指挥士兵架起云梯登城作战。张巡率领士兵把用油浸过的草捆点着后抛下城去,登城的叛军被烧得焦头烂额,非死即伤。此后60多天里,只要一有机会,张巡就突然出兵攻击,打得叛军不知如何回应。

在与叛军作战的过程中,张巡用计夺取了叛军的大量粮食和盐,但粮盐虽足,城中箭矢却已消耗得差不多了。张巡让兵士扎了许多草人,给它们穿上黑衣。当夜月色朦胧,张巡命令兵士用绳子把草人陆陆续续地缒下城去。城外叛军见这么多人缒城而下,纷纷射箭,一时间箭如飞蝗。射了半天,叛军发觉不对劲,因为他们始终没听到一声喊叫声,而且又发现这一批刚拉上城去,那一批又坠下来,始觉中计。派人前去探查以后,他们方知所射的都是草人。在他们大呼上当之时,张巡已收获1万多支箭矢。

为了储备足够的箭矢,第二天深夜,张巡又把外罩黑衣、内穿甲胄的草人从城上放下去。叛军发现,乱射了一阵,发现又是草人。以后每天夜里,张巡都是如此,城外叛军渐渐知道是计,也不再拿箭去射。这时,张巡决定发起总攻。这一日,张巡把500名勇士趁夜色缒下城去,勇士们奋勇突进敌营。叛军一点准备也没有,立时大乱。接着,叛军的营房四处起火,混乱中也不知来了多少官军。最后,张巡率军直追杀出10余里,大获全胜。

上面这个故事中,叛军刚开始发现用箭射的都是稻草人时,以后当发现城墙上缒下东西,仍用箭去射是对的,但后来上当的次数多了,他们就乐观地以为再次缒下来的东西肯定还是稻草人,结果张巡就缒下真人将他们杀得落花流水。故事中张巡采用的这种方法就是警察捉小偷博弈中的随机策略。

一位学艺归来的拳师,与老婆发生了争执。老婆摩拳擦掌,跃跃欲试。拳师心想:“我学武已成,难道还怕你不成?”没曾想尚未摆好架势,老婆已经张牙舞爪地冲上来,三下五除二,竟将他打得鼻青脸肿,没有还手之力。事后别人问他:“既然学武已成,为何还败在老婆手下?”拳师说:“她不按招式出拳,我怎么招架?”

这就告诉我们:在与对手博弈时,随机策略看似不是章法,但却胜似章法。因为,在博弈中,大家都是理性的人,一方采取某种策略,另一方都会进行理性推测,进而作出相应的回应,此时,如果采取随机策略,让他摸不清你的行动规律,便可巧妙战胜对手。采取随机策略的关键就是要让你的策略具有不可预测性。

拥有独立的价值标准

随机游走理论是警察与小偷博弈中随机策略在投资领域的经典应用。那什么是随机游走理论呢?在投资界有这样一个经典的笑话:那些殚精竭虑的投资分析专家们精心挑选出来的投资组合,与一群蒙住双眼的猴子在股票报价表上用飞镖胡乱投射所选中的股票,在投资收益率上没有质的差别。这也就是说,股价波动是无法通过对历史数据的分析来预测未来的走向的。这就是著名的“随机游走”(Random Walk)理论。

有一个游戏叫作“一、二、三射击”或称“手指配对”。在这个游戏中,一个参与者选择“奇数”,另外一个参与者则得到“偶数”。数到三的时候,两个参与者必须同时伸出一个或者两个手指。假如手指的总数是偶数,就算“偶数”参与者赢;假如手指的总数是奇数,就算“奇数”参与者赢。

那么怎样才能保证自己不被对手所赢呢?

有人的回答是闭着眼,瞎出。这话运用到投资领域就是随机游走。

从随机游走理论中我们可以得出的一个结论是:市场是不可预测的。

投资大师彼得·林奇曾说过这么一段话:“我每次演讲完毕回答现场观众提问的时候,总会有人站起来问我如何看待未来的股市行情,没有一个人关心上市公司基本面—例如想知道固特异轮胎公司是不是一家可靠的公司或者它目前的股价水平是否合理;同时倒会有另外四个人想知道是否牛市行情会持续下去,或者是否熊市已经露出狰狞的面目。我总是告诉他们,我所知道的有关股市预测的唯一规则就是:每当我得到提升,股市就会下跌。我刚刚说完这句话,就会有其他人站起来问我下一次提升会在什么时候。”

在美国有6万名经济学家,他们中有很多人被高薪聘请从事预测股票市场走势的专职工作,然而如果他们能够连续两次预测成功的话,他们可能早就成为百万富翁了。成为百万富翁之后,他们可能辞去工作,到著名度假胜地巴哈马的比密尼岛,一边喝着酒,一边钓着金枪鱼,但是事实情况是他们中的大多数还在为了得到一笔丰厚的薪水而拼命工作。这应该能让我们认识到,这些经济学家预测股票市场变化的准确率是相当糟糕的。

另一个例子同样能说明股票市场的不可预测性。

在1981年7月和1982年11月间,美国发生了一次持续16个月的经济衰退。在这次长达16个月的经济衰退期间,失业率为14%,通货膨胀率为15%,最低贷款利率是20%。事后,很多人站出来宣布说他们已经提前预测到了这一切,但是衰退发生之前却没有一个人向公众说起过经济衰退将会发生。

然而当80%的投资者都信誓旦旦地说我们即将回到20世纪30年代大萧条时期的时候,股市却突然出现了报复性的大反弹,这让那些投资者的信誓旦旦显得荒唐可笑。

正是由于市场的这种不可预测性,所以作为投资者,我们与其去做各种分析,不如采取随机策略。当然,采取随机策略,并不等同于毫无策略地“瞎出”,这里面仍然有很强的策略性。这种策略性的主要体现就是正确地认识市场,在正确认识的基础上去应对它。

关于如何正确认识市场,股神巴菲特有着很独特的见解:

第一,市场总是(或经常是)错的。

第二,市场变化不定,你不可能预见到股市价格的未来变化趋势。第三,市场先生是来侍候你的,不是来指导你的。如果你被他的情绪影响了,那后果将是灾难性的。

在这种正确理念的指导下,我们需要做的就是用自己独立的价值标准去应对市场,去评价一只股票到底是便宜了还是贵了。

统一协定的可取性

通常情况下,遭遇警察与小偷博弈时,双方采取混合策略的目的是为了战胜对方,这是一种通过随机策略的斗智斗勇。但实际上,即使在双方打算合作的时候,也会发生混合性策略博弈。对警察抓小偷的混合策略的传统解释是,局中人应用一种随机方法来决定所选择的策略。

这种解释在理论与实践中有的时候不能令人满意。在生活中,我们往往会因为这种抉择而烦心。这个时候,我们往往需要两者进行协商和讨论,从而得出一致的意见。

小王和小红是大学校园里的一对恋人,有一次电话打到一半突然断了,这时两人该怎么办?假如小王马上再给小红打电话,那么小红应该留在电话旁等待,好把自家电话的线路空出来。可是,假如这时小王也在等待,那么他们的甜言蜜语就没有机会继续下去了。

一方的最佳策略取决于另一方会采取什么行动。

这里又有两个均衡:一个是小王打电话而小红等在一边,另一个则是小红打电话而小王等在一边。

事实上,博弈论在这个打电话问题上的解决办法看起来很笨,这就是“混合策略”:即用投硬币的方式来决定自己是不是应该给对方打电话。根据前面给出的条件,两人这种随机行动的组合成为第三个均衡:如甲打算给乙打电话,有一半机会可以打通(因为这时乙恰巧在等甲打电话),还有一半机会发现电话占线;假如甲等乙打来电话,那么,同样会有一半机会接到电话,因为乙有一半机会主动给甲打电话。每一个回合双方完全不知道对方将会采取什么行动,他们的做法实际上对彼此都最理想。

由于双方主动拨打电话的可能性均为50%,所以平均来说要尝试两次才能成功接通。当然,这个“笨办法”并不是博弈论的错,而是就策略而言只好如此。

约翰·查里斯·哈萨尼对此提出了更确切的解释方法。

哈萨尼认为,在现实博弈中,每一种博弈的形势都受到一些微小的随机波动因素的影响。在标准的博弈模型中,这些影响表现为微小的独立连续随机变量,每个局中人的每一策略均对应一个。这些随机变量的具体数值仅为相关局中人所知,这种知识即成为私有信息;而联合分布则是博弈者的共有信息。哈萨尼把这称为“变动收益博弈”。

在变动收益博弈中,各随机变量的数值影响着每一个博弈者的收益。在适当的技术条件下,变动收益博弈所形成的纯策略组合与对应无随机影响的标准博弈的混合策略组合恰好一致。实验证明,当随机变量趋于零时,变动收益博弈的纯策略均衡点转化为对应无随机影响的标准型博弈的混合策略均衡点。

变动收益博弈理论对混合策略均衡点提供了具有说服力的解释:局中人只是表面上以混合策略进行博弈,但实际上仍是在各种略为不同的博弈情形中以纯策略进行博弈。

所以在生活中,对这类问题我们只能按照惯例或者随机应变。前面那个例子的一个解决方案是:原来打电话的一方再次负责打电话,而原来接电话的一方则继续等待电话铃响。这么做有个显而易见的理由:原来打电话的一方知道另一方的电话号码,反过来却未必是这样。另一种可能性是,假如一方可以免费打电话,而另一方不可以(比如你是在办公室而她用的是住宅电话),那么,解决方案是可以免费打电话的一方应该负责第二次打电话。

通常情况下还有另一种解决方案,即由较热切的一方主动再打电话,如一个“煲电话粥”成瘾的家庭主妇对谈话的热情很高,而她的同伴就未必这样,这种情况下通常是她再打过去。再如恋爱中的男女遇到这种情况,通常也是由主动追求者再打电话。

由此看来,基于变动收益博弈理论,当生活中遭遇由谁来打电话这类无法用理性得出最佳策略的问题时,按照惯例或随机应变不失为比较稳妥的选择。

选择怎样的协定并不重要,只要大家同意遵守同一协定即可。不过,有些时候一个协定会比另一个协定好得多,但这并不表示更好的协定一定会被采纳。如果一个协定已经存在了很长时间,现在环境的变化使得另一个协定更可取,这时要想改革仍然并不容易。

随机策略解决难题

在警察与小偷博弈中,我们发现随机策略不失为一种好方法。所谓纯策略,是指参与者在他的策略空间中选取唯一确定的策略,是参与者一次性选取并且一直坚持的策略。而混合策略是指参与者在各种备选策略中采取随机方式选取并且可以改变,而使之满足一定的概率的策略。

在现实生活中,执行者往往会面临手足无措的情况,而此时使用随机策略往往能帮助他们解决难题。

在传统政治中,有所谓“君臣一日而百战”的说法,形容国君与大臣之间博弈的激烈程度。因为激烈,所以其层出不穷的招式,给博弈论的研究提供了丰富的案例。

《吕氏春秋》中记载了这样一个故事:战国时,宋康王极端变态,整天喝酒,异常暴虐。凡群臣中有来劝谏的,都被他找理由撤职或者关押起来。臣下也因此对他更加反感,经常非议他。他十分苦恼地对宰相唐鞅说:“我处罚的人越来越多,但是越是这样,大臣们越发不畏惧我,这是什么原因呢?”唐鞅说:“您所治罪的,都是一些犯了法的人,惩罚他们,没有犯法的好人当然不会害怕。如果您要让您的臣子们害怕,就必须不区分好人坏人,也不管他犯法没有犯法,随便抓住就治罪。这样的话,大臣们就知道害怕了。”

唐鞅提出的这个建议虽然看起来很不人道,但却不能不说是深刻地把握住了混合策略博弈的精髓之处。能够预测的惩罚,大臣总会想方设法地加以规避;而无法预测的惩罚,却是防不胜防的,因而也是更令人心惊胆战的。

宋康王也是个聪明人,听了这个主意以后恍然大悟,深深地点了点头。不久,他就下令把唐鞅杀了,大臣们果然十分害怕,每天上朝时都战战兢兢不敢多说一句话。

策略的随机性是博弈论早期提出的一个深谋远虑的观点。众所周知,一个国家每年都需要源源不断地征召到年龄的青年人伍。如果普通平民百姓大规模拒绝应征,因为法不责众,对违法者进行处罚成了不可能的任务。这样,如何激励到了法定年龄的青少年去登记,等待政府征召入伍,就成为一个很需要博弈智慧的工作。

不过,政府掌握着一个有利的条件:规矩制定权。我们不妨想象政府有权力惩罚一个没有登记的人。那么,它怎样才能利用这一权力促使大家都去登记呢?政府可以宣布它要按照百家姓的顺序追究违法者。排在第一位的每一个姓赵的人知道,假如不去登记,就会受到惩罚。惩罚的必然性已经足以促使他乖乖登记。接下来,排在第二位的每一个姓钱的人就会认为,既然所有姓赵的都登记了,惩罚就会落到自己身上……这么依次分析下去,那些稀有姓氏欧阳、公孙和诸葛家的人也都会乖乖就范。

如果一场博弈的参与者按照某种顺序排列,通常能预计到排在首位的人会怎么做。这一信息会影响到下一个人,接下去影响到第三个人,如此沿着整个行列一直影响到最后一个人。可是问题在于,人数是如此众多,在这种情况下,可以预计到会有一个很小数目的人群出差错。或许等不到政府数完前几位姓氏,一定就有人因为没有登记而受到惩罚。于是后面的人就不必担心被迫究了。

真正有效的激励机制,是不要预先宣布任何顺序,而是随机抽取。这样做的好处在于,可以实施惩罚的数目完全不必接近需要激励的人群的数目。所谓杀一儆百,惩罚1000名违法者,以对数以百万计可能违法的人群产生阻吓作用。

真正有效的激励机制,是不要预先宣布任何顺序,而是随机抽取。