第2章 偏斜分布
与人类思想史的许多次革命一样,我们很难找到统计模型概念融入科学的确切时刻。我们可以在19世纪早期德国和法国数学家的作品中找到统计模型概念的具体例子,甚至可以在17世纪伟大天文学家约翰尼斯·开普勒(Johannes Kepler)的论文中找到它的影子。正如本书序言所说,拉普拉斯发明了所谓的“误差函数”,用于解决天文学的统计问题。我个人倾向于认为统计革命始于19世纪90年代卡尔·皮尔逊(Karl Pearson)的工作。查尔斯·达尔文(Charles Darwin)认为生物变异是生命的一个基本要素,并将其作为适者生存理论的基础。他的英国同胞卡尔·皮尔逊则首先认识到了统计模型的基本性质及其与19世纪科学决定论迥异的观念。
在20世纪60年代开始学习数理统计学时,我的老师很少提到皮尔逊的名字。当我与这个领域的大腕见面交谈时,我也很少听到人们提及皮尔逊或者他的作品。人们不是将他遗忘,就是把他看作一个无足轻重的小人物,认为他所从事的活动早已过时了。例如,在卡尔·皮尔逊人生的最后几年,美国国家标准局的邱吉尔·艾森哈特(Churchill Eisenhart)当时在伦敦大学学院学习,他印象中的皮尔逊压根是一个没有什么精神头的老头,统计研究的发展已经把他远远甩在了后面,将他和他的大部分作品扔进了历史的垃圾堆。伦敦大学学院年轻而聪明的学生们都聚集在比他更加年轻的伟大人物身边,其中包括卡尔·皮尔逊的儿子。没有人愿意来看望年迈的卡尔,他的办公室冷冷清清,与远处喧嚣繁忙的新兴学术中心形成鲜明的对比。
情况并不总是这样。19世纪70年代,年轻的卡尔·皮尔逊离开英国,到德国攻读政治学研究生。在那里,他迷上了卡尔·马克思(Karl Marx)的作品。为了向马克思表达敬意,他改变了自己名字的首字母。他在这个领域写了两本不错的作品,取得了政治学博士学位,然后回到了伦敦。在保守的维多利亚时代,在英国的中心,他竟然组织了一个青年男女讨论俱乐部。在俱乐部里,青年男女们仿照德国和法国上流社会沙龙的形式,以男女人数相等的形式聚在一起(没有年长妇女陪同)。在这里,他们讨论世界上的重大政治和哲学问题。事实上,皮尔逊在这个环境中结识了自己的妻子,这表明他成立俱乐部的动机可能不止一个。通过这个小型社交活动,我们可以领略到卡尔·皮尔逊最初的内心想法和他对既有传统的蔑视。
虽然皮尔逊获得了政治学博士学位,但他主要的兴趣却是在科学和数学模型的本质上。19世纪80年代,他出版了《科学的语法》。这本书后来多次再版。在第一次世界大战之前的大部分时间里,这本书被看作介绍科学和数学本质的最伟大书籍之一。书中充满了具有原创性的杰出思想,使其成为科学史上的一部重要作品。而且,这本书文笔流畅,语言平实,任何人都可以拿来一读。即使你不懂数学,你也能读懂这本《科学的语法》。这本书到现在已经有100多年历史了,但书中的思想和洞见仍然非常适合21世纪的数学研究,其对科学本质的理解即使在今天仍然适用。