书城经济信号与噪声
1908500000032

第32章 贝叶斯定理:只有正确的预测才能让我们更接近真相(2)

乌尔加利斯的大秘诀在于,他根本就没有什么大秘诀,却有上千个小秘诀,他每次都把这些信息量子组合为一个矢量。比如,他有一个程序,这个程序可以对每一场比赛的结果进行模拟。但是,他并不完全依赖这个程序,只有在胜算很大或是有其他信息补充进来时,他才会依赖该程序。几乎所有NBA比赛他都看过——不论是直播还是录播——对于哪支队伍表现出色而哪支队伍表现不佳,他都有自己的看法。他经营着一家球探服务机构(本质上说其实是为他自己服务的),雇用了一些助手,让这些助手将每个球员在每场比赛中的防守阵形绘制成图,这种做法给乌尔加利斯带来的好处就连很多NBA球队都望尘莫及。他关注了几十名NBA球员的微博,仔细查看每一条140个字符的微博内容,试图从中找出关联信息:若某位球员发微博说自己那晚晚些时候会去某个夜总会,那这位球员的心思很可能根本就没在比赛上。乌尔加利斯十分关注球队教练在新闻发布会上说的话及他们的措辞,比如,如果某位教练说,他希望他的队伍“学习进攻”或者“练好篮球基本功”,那可能表明他希望放慢比赛的节奏。

对于大多数人来说,乌尔加利斯观察的这些事物似乎十分琐碎。从某种意义上来说,那些大而明显的优势也会被其他篮球赌客发现,也会在盘分线上反映出来。所以,乌尔加利斯必须作进一步的研究。

比如,2002年赛季末,乌尔加利斯注意到,凡是克里夫兰骑士队参加的比赛,比分都会超出下注的总分数(体育赌注主要有两种,一种是计算分数差,另一种是计算总分,即两支队伍得分的总和)。连着看了十几场比赛之后,乌尔加利斯很快就找到了原因:骑士队的得分后卫里基·戴维斯是出了名的自私自利,在赛季结束之后他即将成为自由球员,因此他所做的每件事都是为了提高自己的统计数据,尽可能地提升自己的价值。里基·戴维斯总是在千钧一发的时刻,努力组织进攻,制造各种机会增加自己的得分和助攻次数。比赛精彩与否已不再重要:骑士队已经丢掉了夺冠的机会。多数情况下,骑士队的对手也会丢掉夺冠机会,而且作为回报,双方会签订一份默契协议,在之后的比赛中,防守松懈、轮流投篮,从而提高自己的统计数据。该赛季最后3周里,骑士队参赛的比赛总得分突然从每场192分上升到每场207分。在总分上投注不是多么确切的事,当然,世上本就没有什么是确切的,但是总分投注却可以让投注人一本万利。

回顾过去,这样的比赛模式有时十分明显:如果骑士队除了不断地提高进攻数据以外什么都不做,那么,他们参加的比赛必会是高分比赛。篮球赌客在看统计数据时,观点极其偏执,从不考虑统计数据是在什么样的背景下产生的,于是这些球员就可以玩障眼法。如果一支球队一连串比赛的得分都很高,甚至出现三四次这种连续高分的情况,这样的高分通常没有任何意义。确实,因为NBA赛季很长,30支球队要打82场常规赛,舞弊的现象时有发生。这些比赛大多为深水盘,这些情况的出现纯属偶然原因导致。而实际上,篮球赌客们通常也会认识到这些趋势,他们在划定盘分线时可能就会对这些趋势进行过度补偿,有时反方向下注才是明智的

做法。

所以,乌尔加利斯不单单是寻找过去的比赛模式,在任何一个数据丰富的领域,寻找模式很容易,一般的赌客也都是这么做的。关键是要分辨出这些模式到底是噪声还是信号。

虽然还没有找到可以解释乌尔加利斯下注时作为依据的关键点,但是有一种思维过程可以帮助他作决定,这就是贝叶斯定理。

贝叶斯留下的宝贵遗产

托马斯·贝叶斯,大概于1701年出生(不过后人更倾向于1702年),他是一位英国牧师,也是英国皇家学会会员。虽然人们用贝叶斯的名字为概率论命名——贝叶斯定理或许是数理统计学中最著名的定理了——但对他的生平却知之甚少,甚至没有人知道贝叶斯的样貌,印在百科全书上的肖像大多也是张冠李戴,根本就不是他的真容。

贝叶斯出生在一个富足的家庭,他的家可能位于英国东南部的赫特福德郡,关于这一点人们基本上没有什么争议。因为贝叶斯不信奉英国国教,所以被牛津或剑桥这样的学府拒之门外,他只能不远万里到爱丁堡大学读书。

尽管贝叶斯所著图书的种类并不算多,但还是被选为英国皇家学会会员,在英国皇家学会,他担任内部评论家或者智力辩论的裁判员。尽管《神的慈爱》这篇短文是用约翰·努恩的署名发表的,但大部分学者认为这篇文章其实就是贝叶斯的作品。文中,贝叶斯思考了古老的神学问题:如果上帝真的是慈爱的,这世上为何还会有苦难和邪恶?贝叶斯给出的答案大体上是,我们不能将人类的瑕疵误认作上帝的缺陷,我们可能并不完全理解上帝所创造的这个世界。贝叶斯在给另一个神学家的回信中写道:“所以一切看起来都那么奇怪……因为上帝只看到世界最底层的生活,他应该由此推断出整个人类会丧失幸福感。”

贝叶斯的作品《机会的学说概论》(又称《论有关机遇问题的求解》)的名气更大一些,直到1763贝叶斯去世之后,这部作品由他的朋友理查德·普莱斯引介到英国皇家学会,引起了学会的注意,随后才得以出版。这部作品主要研究的是,当我们遇到新数据时,该如何使用概率的方法进行推理。

在向众人呈现贝叶斯这一著作时,普莱斯举了一个“人”的例子,他是第一个出现在这个世界上的人(他可能是亚当,也可能是来自柏拉图洞穴的人),也是第一个看见日出的人。起初,这个人并不知道日出是必然现象还是偶然现象。然而,此后他度过的每一天太阳都会升起,于是他信心大增,认为这就是大自然的一个永恒特征。渐渐地,通过这一纯粹的统计学形式的推断,他预测太阳每天升起的概率为100%(尽管从未达到100%)。

贝叶斯和普莱斯并不认为这个世界本质上是盖然性的或不确定的。贝叶斯相信神是完美的,但他同时也支持牛顿的学说,认为大自然遵循一种有规律且可预测的法则。贝叶斯的理论更像是一种声明,从数学方面和哲学方面表达了我们是如何了解宇宙的:我们通过近似值一点点地模拟并认识宇宙,收集越多的证据,就越接近真相。

这与苏格兰哲学家戴维·休谟的无神论观点形成了鲜明对比。休谟认为,既然我们不能确定太阳能否再次升起,那么认为太阳会升起和认为太阳不会升起的预测都是不合理的。贝叶斯则认为,合理性也是一种盖然论。其实贝叶斯和普莱斯是在告诉休谟,不要指责大自然,我们无法理解大自然只是因为我们不够聪明;如果你从无神论的牛角尖中走出来,并且对自然的规律作一些预测,也许就会离真相更近一些。

概率、预测与科学进步

我们可能注意到了,无神论的主张与贝叶斯在《神的慈爱》中提到的观点(我们不能把自己的不足怪罪到上帝头上)如出一辙。承认自我的缺陷才能补救不足。

然而,贝叶斯的哲学思想本质上没有任何宗教色彩。今天公认的贝叶斯定理就是一个普通的不能再普通的数学表达式,是由法国数学家、天文学家拉普拉斯推导出来的,而拉普拉斯就是一个无神论者。

也许你还记得,本书前文中提到拉普拉斯是科学决定论的倡导者。他认为只要给定宇宙内每一粒子的位置,并能快速计算其运动规律,人们就能完美地做出对宇宙的预测。那么,拉普拉斯为什么也与基于盖然论的理论撇不清关系呢?

原因在于,大自然完美无缺,人类对自然的认知和了解却缺憾万千,二者之间又断了联系。当天文观测显示木星和土星的运动轨迹出现异常时,拉普拉斯几乎要崩溃了,因为按照他的预测,木星即将撞上太阳,而土星即将飞入外太空。当然,这些预测都是错的,而拉普拉斯毕生都致力于测量这些行星的运行轨迹,力求得到更加准确的数据。那时,望远镜这样的仪器还不够精密,因此拉普拉斯所取得的进步只能依赖概率推理而非精确的测量。在拉普拉斯的眼中,概率是介于无知与博闻之间的基准点,更透彻地理解概率对科学进步极为重要。

18世纪时,贝叶斯和拉普拉斯对概率、预测和科学进步之间的内在联系理解得更加透彻,借助几百年前发明的印刷机,人类社会由此开始进入信息大爆炸时期,并最终将这些信息应用于推动科学、技术和经济的持续进步。这种内在联系至关重要,与预测行星运行轨迹和湖人队能否夺冠一样重要。就像我们即将看到的那样,当另外一种不同的统计模型成为20世纪的主导时,这种模型不再强调预测的作用,而是试图将不确定性说成我们测量失误的结果,与我们错误的判断无关,科学发展就会受到牵绊。

简单的运算推导出重大的预测

如果说贝叶斯定理的哲学基础惊人地深厚,那么相比而言,其数学运算就少得可怜了。在其最基本的形式中,数学运算只是个代数表达式,包含3个已知变量和一个未知变量。然而,就是这样一个简单的运算,却可以推导出重大的预测。

贝叶斯定理涉及条件概率,也就是说,一旦发生了某个事件,这一定理就可以告诉我们一种理论或假设是否正确。

假设你和伴侣同住,某天出差回家后发现自己的衣橱里多出一件陌生的内衣。你可能会奇怪:自己的伴侣是不是出轨了?前提条件是,你找到了内衣,你想要评估的是自己的伴侣出轨的可能性。不论你相信与否,对于这样的问题,贝叶斯定理总能给出答案——假如你知道(或者有意愿预估)下列3个量:

第一,你需要预测出自己的伴侣在出轨的情况下,这件内衣出现的概率。为了解决这个问题,我们暂且假设你是一位女性,而你的伴侣是一位男性,那么,此时我们所说的内衣就是一件女式内衣。如果你的伴侣出轨了,那么很容易想象这件内衣是如何进入你的衣橱的。那么,即使他确实要做对不起你的事,你也希望他能够小心行事。在他确实背叛了你的情况下,我们认为,这件内衣出现的概率是50%。

第二,你需要预测出自己的伴侣在没有出轨的情况下,这件内衣出现的概率。如果他没有出轨,有什么理由证明那件内衣的清白呢?当然有些理由会令人不快(比如这件内衣也有可能是他自己的)。或许,他把衣服搞混了;或者你的伴侣有一位红颜知己,两人之间只存在纯友谊,而你对此也深信不疑,她寄宿一晚忘了带走内衣;或者这就是你的伴侣给你准备的一件礼物,只不过忘了把它包起来。尽管这些理由有些荒谬,但也能说得通。你将这种情况出现的概率定为5%。

第三,这点最为重要,你需要预测贝叶斯定理中所说的先验概率(或者简称先验)。在发现内衣之前,你认为自己的伴侣出轨的概率有多大?当然,现在很难完全客观地考虑这个问题,因为你已经发现了内衣。(在理想状态下,在开始查验证据之前,你就已经算出了先验概率。)但有时我们可以依据经验推断某事件发生的概率。比如,研究发现,已婚夫妇任何一年的出轨概率都在4%左右,所以,我们可以将这个概率视为先验概率。

如果我们算出了以上3个概率值,就可以依据贝叶斯定理得出后验概率。令我们感兴趣的是这样的数据:在发现内衣的情况下,伴侣背叛我们的概率有多大?计算结果(和计算所得出的简单代数表达式)见表8–2。

从图中可以看到,这一概率非常低:只有29%,这个结果也许看似仍有悖常理——那件内衣果真是清白的吗?但这一概率之所以较低,是因为你把伴侣出轨的先验概率设定得很低。尽管一个清白的男人不能像出过轨的男人那样,能为一件陌生内衣的出现找出很多看似合理的解释,但你一开始就把他当作清白的人,这一点对方程式中影响很大。

表8–2?贝叶斯定理——内衣例子

先验概率

男友出轨的初始概率预测 x 4%

新事件:发现神秘内衣

在男友出轨的情况下,内衣出现的概率 y 50%

在男友未出轨的情况下,内衣出现的概率 z 5%

后验概率

在你发现内衣的情况下,修正对男友出轨的预测值 ???xy???

xy+z(1-x) 29%

当我们的先验观念很强大时,它们在新出现的证据面前会表现出惊人的弹性。有一个经典的例子可以证明这一点,那就是女性40多岁时患上乳腺癌的概率。女性步入40岁之后,患乳腺癌的概率其实很低,只有1.4%,这是很幸运的。但是,如果一位女性的乳房X光片显示阳性,那么她患乳腺癌的概率会是多少呢?

研究显示,如果一位女性未患乳腺癌,其乳房X光片会错误地显示她患乳腺癌的概率仅为10%。而如果一位女性确实患有乳腺癌,X光片会查出她患乳腺癌的概率约为75%。看到这些统计结果,你会觉得阳性X光片似乎确实不是什么好消息,但如果用贝叶斯定理来分析这些数据,你会得到不同的结论:40多岁的女性,即使乳房X光片呈阳性,其患乳腺癌的概率也只有10%,因为鲜有女性年轻时就得上乳腺癌。因此,许多医生都建议女性在50多岁时再进行常规的乳房X光检查,而这样会使得患乳腺癌的先验概率更高。

这样的问题无疑极具挑战性。最近一项针对美国人的统计学意识的民意调查就介绍了这个乳腺癌的例子,结果发现,只有3%的受访者能够给出正确的概率估值。有时,放慢速度直观地审视这个问题(如图8–2所示),反而会得到与不准确的估值完全相反的真实数值。可视化技术使得人们更容易考虑全局,因为乳腺癌在年轻女性中病发率极低,所以阳性X光片根本就不能说明问题。

然而,我们通常会把焦点集中到最新、最快获得的信息上,而忽略了全局。鲍勃·乌尔加利斯这样聪明的赌客善于利用我们的这种思维缺陷。乌尔加利斯在湖人队的比赛上赌赢了,一部分原因是其他赌客过于关注湖人队最初的几场比赛。虽然有一员大将受伤,湖人队的表现仍然与你预想的强队应有的表现相差无几,可赌客还是将湖人队获胜的概率从1/4降到1/6.5。贝叶斯定理要求我们认真考虑这些问题,当我们的原始近似值过于粗糙时,这一点很有用处。

不过,这并不能说明我们的先验概率总是支配新的证据,也不能说明贝叶斯定理本身会产生有悖常理的结果。有时,新证据的力量十分强大,会压倒所有其他证据,我们对一件事情的概率估计几乎可以立即从零跃升到100%。