实验设计
回到那个夏日午后的剑桥。留着尖髯的男子叫罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher),当时不到四十岁。他后来被封为罗纳德·费希尔爵士。1935年,他写了一本名为《实验设计》的书,在第2章描述了女士品茶的实验。在书中,费希尔将这位女士和她的观点作为假设问题进行了讨论。他考虑了各种实验设计方法,以确定这位女士是否能判断出两种茶的区别。设计这项实验的问题在于,如果给她一杯茶,那么即使她无法判断出区别,她也有50%的机会猜对茶的种类。如果给她两杯茶,她仍然可能猜对。实际上,如果她知道两杯茶的制作方式不同,那么她对两杯茶的猜测可能都是对的(或者都是错的)。
类似地,即使她能判断出区别,仍然存在问题。她可能犯错误:某杯茶可能混合得不够好,混合的时候茶的温度可能不够高。面对10杯茶,她也可能只答对9杯。
在书中,费希尔讨论了这种实验的各种可能结果,描述了如何确定应当测试多少杯茶、测试的顺序以及应向女士透露多少顺序信息。他计算出了在女士拥有或没有辨别能力时出现不同结果的概率。在讨论中,他并没有暗示这种实验曾经发生过,也没有描述实验的真正结果。
费希尔这本关于实验设计的书是20世纪上半叶横扫所有科学领域的一场统计革命的重要组成部分。在费希尔登场前,科学实验已经进行了几百年。16世纪下半叶,英国物理学家威廉·哈维(William Harvey)曾用动物做实验,通过阻断不同静脉和动脉的血流,发现血液是循环流动的,从心脏流到肺,回到心脏,再流向身体各个部分,最后流回心脏。
费希尔并没有将实验作为获取新知识的方式。在费希尔以前,实验是每个科学家的个人作品。优秀的科学家通过构造实验获取新的知识。平庸的科学家往往会通过“实验”得到许多数据,但是无法获得新的知识,如19世纪晚期诸多试图测量光速的科学家毫无结果的努力。直到美国物理学家阿尔伯特·迈克尔逊(Albert Michelson)用光和镜子构造了一系列非常复杂的实验,人们才得到了第一组良好的光速估计值。
19世纪,科学家很少发布实验结果,他们会宣布他们已发表的数据“证明了”他们所得结论的正确性。格雷戈尔·孟德尔(Gregor Mendel)没有公布所有豌豆育种实验的数据。他描述了实验顺序,然后写道:“两组实验的前10个结果可以用于说明……”(20世纪40年代,费希尔检查了孟德尔用于“说明”的数据,发现它们的精确程度过高,没有表现出应当具有的随机性,不可能是真实的。)
尽管科学的发展来自仔细的思考、观察和实验,但从来没有人能说清应当如何做实验,而且人们通常不会把完整的实验结果告诉读者。
19世纪末20世纪初的农业研究尤其如此。20世纪早期费希尔工作过的洛桑农业实验站在费希尔到来之前对不同肥料成分(叫做“人造肥料”)进行了将近90年的实验。在每次实验中,工人通常会在整个一块田地上播撒磷酸盐和氮盐的混合物,然后种植谷物,并对收获的粮食以及当年夏季的降水量进行统计。他们用一些详细的公式“修正”一年中一块田地的产出,以便与另一块田地或同一块田地其他年份的产出进行比较。它们被称为“肥料指数”。每个农业实验站都有自己的肥料指数,人们都认为自己的指数比别人的指数准确。
实验站90年实验的结果是一堆混乱的结论和大量没有发表的、毫无用处的数据。看起来,某些小麦品种比其他品种更适合某种肥料,前提是当年要有足够多的雨水。另一些实验似乎表明,头一年使用硫酸钾,第二年使用硫酸钠,可以让某些马铃薯品种增收,但对其他品种没有效果。对于这些人造肥料,人们能得出的最好结论是,有些肥料有时也许可能有效。
作为一名出色的数学家,费希尔查看了洛桑的农业科学家用于修正实验结果中不同年份天气差异因素的肥料指数。他研究了与之竞争的其他农业实验站使用的指数。他发现,在基本的代数层面上,它们属于同一公式的不同表现形式。换句话说,相互之间激烈竞争的两组指数实际上做的是同样的修正。1921年,他在顶级农业期刊《应用生物学年报》发表了一篇论文,指出使用不同指数的效果是相同的。这篇论文还指出,所有这些修正都不足以纠正不同田地肥料的差异。这篇出色的论文结束了20年的科学争论。
接着,费希尔研究了过去90年的降水量和作物产量数据,指出不同年份天气因素的影响比不同肥料的影响大得多。根据费希尔后来在实验设计理论中的说法,不同年份的天气差异和不同年份的人造肥料差异是“混合的”。这意味着我们无法将二者从这些实验数据中分离开。这表明,90年的实验和超过20年的科学争论几乎完全是在浪费时间。
这让费希尔开始思考实验和实验设计。他的结论是,科学家在实验之前需要为实验结果建立数学模型。所谓数学模型,指的是一组等式,其中一些符号代表实验中收集的数据,另一些符号代表实验的总体结果。科学家需要根据实验中得到的数据,计算出相应科学问题的合理结果。
考虑一位老师与某个学生的简单例子。老师想用某种方法衡量学生对知识的掌握程度。为此,老师通过对学生进行一组测试来“实验”。每个测试的评分为0到100分。任何一次测试对学生学习程度的估计并不准确。学生可能不知道测试上的那些问题,但是知道许多测试上没有提到的知识;学生可能在参加某次测试的当天头疼;学生可能在参加某次测试的早上与父母吵了一架。出于很多原因,一次测试无法对学生掌握的知识做出良好的估计。所以,老师布置了一组测试,将所有这些测试的平均分作为对学生学习程度的参考。学生对知识的掌握程度是结果。每次测试的分数是数据。
老师如何组织这些测试呢?每次测试应当只涉及过去几天讲授的内容吗?每次测试应当包含之前讲授过的所有内容吗?这些测试应当每月进行一次,每天进行一次,还是每个单元结束后进行一次呢?所有这些都是实验设计需要考虑的问题。
如果农业科学家想知道某种人造肥料对小麦生长的影响,他需要构造一个实验,得出对这种影响进行估计的数据。费希尔指出,这种实验设计的第一步是建立一组描述实验测量数据与估计结果之间关系的数学等式。接着,为了实现目的,这个实验必须能够让人们对这些结果进行估计。实验必须是具体的,能让科学家确定源自天气的结果差异与源自不同肥料的结果差异的比值。此外,必须将同一实验中比较的所有处理因素包含进来,这些因素后来被称为“对照因素”。
在《实验设计》中,费希尔提供了几个优秀的实验设计例子,总结出了良好实验设计的一般原则。不过,他的方法涉及的数学非常复杂,大多数科学家都无法独自构造实验设计,只能使用费希尔在书中提到的某个设计模型。
农业科学家们认识到了费希尔在实验设计上所做工作的巨大价值,费氏方法很快在大多数英语国家的农学院占据了统治地位。费希尔最初的工作引出了一大批描述不同实验设计的科学文献,这些设计应用到了农学以外的其他领域,包括医学、化学、工业质量控制。许多领域涉及的数学都非常深奥复杂。不过目前,我们只需要知道,科学家无法随心所欲地“实验”。这需要长期仔细的思考,通常还涉及大量深奥的数学知识。
至于那位品茶的女士,她后来怎样了呢?费希尔没有描述那个阳光明媚的夏日午后发生在剑桥的那场实验最终的结果如何。不过史密斯教授告诉我,那位女士正确判断出了每一杯茶的制作方式。