“学生”的t检验
1908年,戈塞特在《生物统计》上发表了一篇短文《均值的概然误差》。即使不考虑戈塞特的其他贡献,这篇论文也足以让所有科学家记住他的名字。费希尔最先指出了这篇论文的普遍意义。戈塞特遇到了一个具体问题,他还是像以前一样利用晚上的时间在家里进行耐心而细致的研究。找到解决方法以后,他又用其他数据检验了这个方法,重新核对结果,并且检查自己是否忽略了任何细微的差异。他对需要做出的假设进行了思考,并对他的发现进行了反复计算。他采用了现代计算机经常使用的蒙特卡洛方法,即对一个数学模型进行多次模拟,以确定其概率分布。不过,他手上并没有计算机。他极其辛苦地将数据相加,对数百个样本取平均,并将得到的频率画出来——这一切都是手工完成的。
戈塞特研究的是小样本问题。卡尔·皮尔逊通过对一个分布进行数千次测量来计算四个分布参数。由于他使用了大样本,因此他认为自己得到的参数估计值是正确的。后来,费希尔证明他的想法是错误的。在戈塞特的实验中,科学家很少有条件获得如此巨大的样本。通常的实验只能获得10到20个观测值。他进而发现,这一情况在所有科学领域都很常见。他在一封寄给皮尔逊的信中写道:“如果我是你遇到的唯一一个使用小样本的人,这就太奇怪了。在这个问题上,我和斯特拉顿(Stratton,剑桥大学的一位教员)进行了一些交流……他曾在一项研究中仅仅使用了4个样本!”
皮尔逊的研究认为,如果收集到足够大的数据样本,就可以精确地计算出参数。对此,戈塞特提出了疑问:如果使用小样本,会出现什么情况呢?我们如何处理这些注定会在计算结果中出现的随机误差呢?
戈塞特每天晚上坐在餐桌前,寻找小样本数据,计算均值和标准差的估计值,将二者相除,然后把结果画在坐标纸上。他计算出这个比率的四个参数,将其与皮尔逊偏斜分布中的一个进行对比,发现了一个重要结果:我们并不需要知道原始分布所有四个参数的精确值。前两个参数估计值的比值即可制作成表格的概率分布。这些数据的来源以及标准差的绝对值是多少并不重要,因为这两个参数估计值的比值拥有一个已知的分布。
正如弗雷德里克·莫斯特勒(Frederick Mosteller)和约翰·图基(John Tukey)所说,如果没有这个发现,统计分析的回归步骤将无穷无尽地进行下去。如果没有这个被称为“学生”的t检验②,分析师需要估计观测数据的四个参数,然后估计四个参数估计值的四个参数,再对这些估计值的四个参数进行估计,依此类推,这种计算永远也无法得到最终结果。戈塞特的发现表明,分析师只需要进行第一步估计就足够了。
戈塞特的工作有一个基本假设,他认为最初的测量值服从正态分布。后来,在使用“学生”的t检验的过程中,许多科学家认为这个假设是没有必要的。他们常常发现,不管最初的测量值是否服从正态分布,“学生”的t检验都具有相同的分布。1967年,斯坦福大学的布拉德利·埃弗龙(Bradley Efron)证明了这一点。准确地说,埃弗龙发现了不需要上述假设的一般条件。
随着“学生”t检验的发展,统计分布理论在科学界得到了广泛应用,不过,这种应用存在深层次的哲学问题。这些理论被称为“假设检验”或“显著性检验”。我们将在后面一章进一步讨论这个问题。现在我们只需要知道,几乎所有人都在使用“学生”提出的科学方法——虽然很少有人真正理解其思想。
与此同时,“亲爱的戈塞特先生”成了两大对立天才卡尔·皮尔逊和费希尔之间的调解人。他和两个人维持着亲密的关系,尽管他常常向皮尔逊抱怨说,他不理解费希尔在信中所写的内容。费希尔还在剑桥大学上学时,戈塞特就和他建立了良好的关系。1912年,通过助教③的介绍,费希尔认识了戈塞特,当时费希尔刚刚成为剑桥大学的“牧人”(最高数学荣誉)。他正在研究一个天文学问题,为此写了一篇论文,重新发现了“学生”1908年得到的结果——年轻的费希尔显然不知道戈塞特之前的工作。
费希尔向戈塞特展示的论文中有一个小错误,被戈塞特发现了。当戈塞特回到家里时,他发现费希尔寄来了两页详细的数学公式。年轻的费希尔重新完成了戈塞特的原创性工作,并进行了推广,他还发现了戈塞特犯下的一个错误。戈塞特给皮尔逊写信说:“附上一封信,它证明了我关于‘学生’t检验的频率分布公式,您是否介意替我看一下。即使我可以理解,超过三维空间我还是觉着不自在。”费希尔用多维几何证明了戈塞特的成果。
戈塞特在给皮尔逊的一封信中解释了自己和费希尔认识的过程。当时他去剑桥见一位朋友,这位朋友在冈维尔与凯厄斯学院担任费希尔的导师,这位朋友将戈塞特介绍给了这位22岁的学生。戈塞特接着写道:“这个叫费希尔的小伙子写了一篇论文,提出了‘一个新的概率标准’或者某种与此类似的东西。这篇论文形式非常工整,不过根据我的理解,这种看待事物的方法非常不切实际,几乎没有任何意义。”
在描述了他与费希尔在剑桥的讨论之后,戈塞特写道:
对此,他回复了两页大纸,上面写满了极为复杂的数学公式,证明了(后面是一堆数学公式)……我无法理解这些内容,于是写信说,我会在有空的时候研究这封信。实际上,我把它带到了苏格兰西北湖区,然后把它弄丢了!
现在,他又给我寄了这些东西。我觉得如果合适的话,你也许愿意把这个证明过程放在注释里面。这个证明非常优雅,运用了大量数学推导,也许会吸引一些人……
就这样,20世纪最伟大的天才之一登上了历史舞台。皮尔逊在《生物统计》上发表了这位年轻人的证明过程。三年之后,在皮尔逊以屈尊俯就的口气给费希尔写了一系列信件之后,在他确认费希尔的一篇论文只能被看作对皮尔逊一位同事所做工作无关紧要的补充之后,他才第二次发表了费希尔的论文。此后,皮尔逊再也没有让费希尔的论文出现在自己的期刊上。费希尔继续在皮尔逊最引以为傲的工作成果中寻找错误,皮尔逊也经常在《生物统计》的文章中指出“费希尔先生”或“费希尔先生的一位学生”在其他期刊发表的论文中存在的错误。我们会在下一章讲述这些内容。戈塞特还会在后面某些地方出现。作为一位慈祥的导师,他将许多年轻男女带进了统计分布的新世界里,他的许多学生和同事也为这门新的数学分支做出了重要贡献。尽管戈塞特作了许多谦虚的声明,但这个领域许多影响深远的重大贡献都是他一个人做出来的。
①泊松分布是以18~19世纪数学家西米恩·丹尼斯·泊松的名字命名的,但伯努利家族的一个成员之前描述过这个分布。这是施蒂格勒误称定律的又一个例子。
②我们也许可以根据施蒂格勒误称定律导出一个推论,而这就是该推论的一个例子。戈塞特用字母z表示这个比值。而几年以后,教科书作者形成了一个传统,用字母z表示服从正态分布的变量,同时开始用字母t表示“学生”的比值。
③像剑桥这样的英国大学会为每个学生分配一名教员,对他的学习进行辅导,这名教员被称为学生的助教。