“小偷地图”没有官方版
据报道,杭州市民孙先生在该市各大知名论坛上建立了一个电子版“防小偷地图”,点开该地图网页,只要动动鼠标,就能知道杭州哪里最容易遭贼。这张地图问世以来,点击率迅速飙升。
除了地图上已标注的那些易被盗的地点外,网民还可以把自己知道的小偷出没的地方,随意地进行标注。不仅地段标注特别详细,而且连小偷的活动时间、作案惯用手法都列得一清二楚。
有人问:为何没有“警方版防偷图”,按说,小偷的情况,警察了解得肯定比普通市民多,他们怎么就没有想到设计一个防偷图呢?实际上,问题并没有这么简单。警方如果公布类似的“小偷地图”,很可能打草惊蛇。当小偷也看到地图的时候,肯定会转移战场。
这个回答指出了问题的另一个侧面,但是并不全面。要想真正把这个问题说清楚,我们需要用到博弈论中的一个模型——警察与小偷博弈。
某个小镇上只有一名警察,他负责整个镇的治安。现在我们假定,小镇的一头有一家酒馆,另一头有一家银行。再假定该地只有一个小偷。因为分身乏术,警察一次只能在一个地方巡逻;而小偷也只能去一个地方。
若警察选择了小偷偷盗的地方巡逻,就能把小偷抓住;而如果小偷选择了没有警察巡逻的地方偷盗,就能够偷窃成功。假定银行需要保护的财产价格为2万元,酒馆的财产价格为l万元。警察怎么巡逻才能使效果最好?
一种最容易被警察采用而且确实也更为常见的做法是,警察对银行进行巡逻。这样,警察可以保住2万元的财产不被偷窃。但是假如小偷去了酒馆,偷窃一定成功。这种做法是警察的最好做法吗?答案是否定的,因为我们完全可以通过博弈论的知识,对这种策略加以改进。
警察的一个最好的策略是,抽签决定去银行还是酒馆。因为银行的价值是酒馆的两倍,所以用两个签代表,比如抽到l、2号签去银行,抽到3号签去酒馆。而在这种情况下,小偷的最优策略是:以同样抽签的办法决定去银行还是去酒馆偷盗,与警察不同的是抽到1、2号签去酒馆,抽到3号签去银行。
警察与小偷之间的博弈,提供了混合策略的思路,更形象的样板是“剪刀、石头、布”的游戏。在这样一个游戏中,不存在纯策略均衡。对每个人来说,出“剪刀”、“布”还是“石头”的策略应当是随机的,不能让对方知道自己的策略,甚至是策略的倾向性。一旦对方知道自己出某个策略的可能性增大,那么在游戏中输的可能性也就增大了。
这一类博弈与囚徒困境博弈有一个很大的差别,就是投有纯策略纳什均衡点,只有混合策略均衡点。这个均衡点下的策略选择是每个参与者的最优策略选择。
在每个参与者都有优势策略的情况下,纯策略均衡是非常合乎逻辑的。一个优势策略优于其他任何策略,同样。一个劣势策略则劣于其他任何策略。
假如你有一个优势策略,你可以选择采用,并且知道你的对手若是有一个优势策略他也会照办;同样,假如你有一个劣势策略,你应该避免采用,并且知道你的对手若是有一个劣势策略他也会规避。但通过警察与小偷博弈我们看到,并非所有博弈都有这样优势策略,哪怕这个博弈只有两个参与者。
博弈学专家告诉你
纯策略只是博弈论的一种特例。特别是当博弈是零和博弈,即一方所得是另一方的所失时,只有混合策略均衡。对于任何一方来说,都不可能有纯粹的占优策略。
谁会拨电话
大学校园里的一对恋人,有一次电话打到一半突然断了,两人该怎么办,假如男孩子马上再给女孩子打电话,那么女孩子应该留在电话旁等待,好把自家电话的线路空出来。可是,假如这时男孩子也在等待,那么他们的甜言蜜语就没有机会继续下去。
一方的最佳策略取决于另一方会采取什么行动。这里又有两个均衡,一个是男孩子打电话而女孩子等在一边,另一个则是女孩子打电话而男孩子等在一边。这两个人需要进行一次沟通,以帮助他们确定彼此一致的策略,就应该选择哪一个均衡达成共识。一个解决方案是,原来打电话的一方再次打电话,而原来接电话的一方则等待电话铃响。这么做的好处是原来打电话的一方知道另一方的电话号码,反过来却未必如此。
另一种可能性是,假如一方可以免费打电话或者电话费用比另一方低廉,比如男孩子的电话是包月的,而女孩子用的是计时收费电话,那么,解决方案是由前者负责第二次拨打电话。
但是在更多的情况下,双方并没有上面的约定或条件,那就只有依靠投硬币决定是不是应该拨打电话。这种随机行动的组合成为第三个均衡:假如我打算给你打电话,我有一半机会可以打通,还有一半机会发现电话占线,因为这时你也在给我打电话;假如我等你打电话,那么,我同样会有一半机会接到你的电话,还有一半机会接不到你的电话,因为你也在等我的电话。
在这些例子中,选择怎样的协定并不重要,只要大家同意遵守同一协定即可。不过,有些时候一个协定会比另一个协定好得多。但这并不表示更好的协定一定会被采纳。如果一个协定已经存在了很长时间,现在环境的变化使得另一个协定更可取,这时要想改革仍然并不容易。
对混合策略的传统解释是,局中人应用一种随机方法来决定所选择的策略。这种解释在理论与实践中均不能令人满意。每一种真实的博弈形势都受到一些微小的随机波动因素影响。在标准的博弈模型中,这些影响表现为微小的独立连续随机变量,每个局中人的每一策略均对应一个。这些随机变量的具体数值仅为相关局中人所知,这种知识即成为私有信息,而联合分布则是博弈者的共有信息。
变动收益博弈适用于不完全信息博弈理论,各随机变量的数值影响着每个博弈者的收益。在适当的技术条件下,变动收益博弈所形成的纯策略组合与对应无随机影响的标准博弈的混合策略组合恰好一致。实验证明,当随机变量趋于零时,变动收益博弈的纯策略均衡点转化为对应无随机影响的标准型博弈的混合策略均衡点。
博弈学专京告诉你
变动收益博弈理论提供了对混合策略均衡点具有说服力的解释:局中人只是表面上以混合策略进行博弈,但实际上仍是在各种略为不同的博弈情形中以纯策略进行博弈。这种解释是一个具有重大意义的概念创新。’
乱掌打死老师傅
一位学艺归来的拳师,与老婆发生了争执。老婆摩拳擦掌,跃跃欲试。
拳师心想:“我学武已成,难道还怕你不成?”没承想尚未摆好架势,老婆已经张牙舞爪地冲上来,三下五除二,竞将他打得鼻青脸肿,没有还手之力。
事后别人问他:“既然学武已成,为何还败在老婆手下?”
拳师说:“她不按招式出拳,我怎么招架?”
民间早就有“乱拳打死老师傅”的说法,意思是如果一切都没有章法,连老师傅都无法招架呢。这里的“乱拳”,可以看做是随机混合策略的一种形象叫法。
很多情况下我们不应该将不可预测性等同为输赢机会相等,而是应该通过有计划地偏向一边而改善自己的表现,只不过这样做的时候应该确保对方不能预见。在警察与小偷博弈中,警察系统地偏向银行,就是一种十分合理而且很容易理解的改善方式。但是同时,警察必须打乱自己的巡逻目标才能降低小偷盗窃成功的概率。这么一来,他会让小偷永远处于迷茫之中,也就没有办法获得准确预测的优势了。
从警察和小偷的不同角度计算最佳混合策略,会得到一个有趣的共同点:同样的成功概率。也就是说,警察若采用自己的最佳混合策略,就能将小偷的成功概率拉到他采用自己的最佳混合策略所能达到的成功概率。
这并非巧合,而是两个选手的利益严格对立的所有博弈的一个共同点。这个结果称为“最小最大定理”,由数学家约翰·冯·诺伊曼创立。这一定理指出,在二人零和博弈中,一人所得等于另一人所失,每个参与者尽量使对手的最大收益最小化,而他的对手则努力使自己的最小收益最大化。他们这样做的时候,会出现一个令人惊讶的结果,即最大收益的最小值(最小最大收益)等于最小收益的最大值(最大最小收益)。双方都没办法改善自己的收益,因此这些策略形成这个博弈的一个均衡。
最小最大定理的证明相当复杂,不过,其结论很实用。假如你想知道的只不过是一个选手之得或者另一个选手之失,你只要计算其中一个选手的最佳混合策略并得出结果就行了。
所有混合策略的均衡具有一个共同点:每个参与者并不在意自己的任何具体策略。一旦有必要采取混合策略,找出你自己的策略的方法,就是让对手觉得他们的任何策略对你的下一步都没有影响。
这听上去像是朝向混沌无为的一种倒退,其实不然。因为它正好符合零和博弈的随机化动机:一方面要发现对手任何有规则的行为,并相应采取行动。假如他们确实倾向于采取某一种特别的行动,这只能表示他们选择了最糟糕的策略;反过来,也要避免一切会被对方占便宜的模式,坚持自己的最佳混合策略。
博弈学专家告诉你
采取混合或者随机策略,并不等同于毫无策略地“瞎出”,这里面仍然有很强的策略性。其基本要点在于,运用偶然性防止别人发现你的有规则行为并占你的便宜。
抛硬币也有用
《清稗类钞》中记载,清代文学家龚自珍最喜与人押宝,自称能以数学预测色子点数。其蚊帐的顶部写满数字,他无事就卧于床,仰观帐顶,以研究其消长规律。他逢人便自夸赌学之精,闻声揣色,十猜八九。但是龚自珍每下赌场,竞必输无疑。友人取笑他,问他何以屡搏屡负。龚自珍面带戚然地回答:“有人才抱班马,学通孔周,入场不中,乃魁星不照应也。
如我之精于博,其如财神不照应何?”
这种带有宿命论的解释不过是一种无奈的敷衍。心理学家已经发现,人们往往会忘记这样一个事实,即投掷硬币翻出正面之后再投掷一次,这时翻出正面与翻出反面的可能性相等。这么一来,他们连续猜测的时候就会不停地从正面跳到反面,或从反面换为正面,很少出现连续把宝押在正面或反面的情况。
概率里有一个重要的概念是事件的独立性概念。很多情况下,人们因为前面已经有了大量的未中奖人群,:而去买彩票或参与到累计回报的游戏,殊不知,每个人的“运气”都独立于他人的“运气”,并不会因为前人没有中奖你就多了中奖的机会。
假如我们抛10次硬币,没有一次抛出了正面,下一次抛出正面的可能性就大于上次吗?抛硬币出现正反面的决定性因素很多,包括硬币的质地和你的手劲,第11次投掷翻出正面的机会还是跟翻出反面的机会相等,根本没有“反面已经翻得太多了”这回事。
拉斯维加斯的很多赌场,老虎机上都顶着跑车,下面写着告示,告诉赌客已经有多少人玩了游戏,车还没有送出,只要连得三个大奖,就能赢得跑车云云。但得大奖的规则并无变化,每人能否得到跑车和前面的“铺路石”毫无关系。同样,在六合彩中,上周的号码在本周再次成为得奖号码的机会跟其他任何号码相等。
有很多东西对于人们的智力来说根本是不可预测的,与其让主观猜测干扰我们的决策,不如采取纯粹的随机方式。居住在加拿大东北部拉布拉多半岛的印第安人,早就意识到了这一点。
这些靠狩猎为生的人们,每天都要面对一个问题:朝哪个方向进发去寻找猎物?他们寻找问题答案的方式在文明人看来十分可笑。这种方法类似于中国古代的烧龟甲占卜:把一块鹿骨放在火上炙烤,直到骨头出现裂痕,然后请部落的专家来破解这些裂痕中包含的信息,找出他们当天寻找猎物应去的方向。令人惊异的是,这种完全是巫术的决策方法竟然使他们经常能找到猎物,所以这个习俗在部落中一直沿袭下来。
在这样的决策活动中,印第安人无意中将“长期战略”理论运用于其中。按通常的做法,如果头一天满载而归,那么第二天就应该再到那个地方去狩猎。在一定时间内,他们的生产可能出现快速增长。但正如管理学家说的,有许多快速增长常常是在缺乏系统思考、掠夺性利用资源的情况下取得的,其增长的曲线明显呈抛物线状,在迅速到达顶点后将迅速地下滑。如果这些印第安人过分看重他们以往取得成果的经验,就会陷入因过度猎取猎物资源而使之耗竭的危险之中。
博弈学专家告诉你
如果我们选择随机,就有可能超越真实与谎言的对立。我们虽然没有鹿骨,但是仍然可以选择某种固定的规则,来使自己的策略无法被预测。但这种规则必须是绝对秘密而且足够复杂,使对手很难破解。
真真假假制造机会
唐朝末年,安禄山起兵造反,派遣叛将令狐潮率重兵包围了雍丘。雍丘守将张巡留1000人守城,自己带领1000精兵,打开城门冲出。叛军做’
梦也没想到张巡敢冲出城,措手不及,被杀得人仰马翻。第二天,令狐潮指挥士兵架起云梯登城作战。张巡率领士兵把用油浸过的草捆点着后抛下城去,登城的叛军被烧得焦头烂额,非死即伤。此后60多天里,只要一有机会,张巡就突然出兵攻击,还用计夺取了叛军的大批粮食和盐。