女士品茶:统计学如何变革了科学和生活
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

高尔顿均值回归的推广

前面提到,高尔顿发现了均值回归现象,希望找到一个数学公式,将随机事件相互联系起来。费希尔沿用了高尔顿使用的“回归”一词,在年份和给定田地的小麦产量之间建立了一般性的数学关系。在这里,皮尔逊的概率分布变成了将年份与产量相联系的公式。这个更为复杂的分布参数描述了小麦产出变化的不同特点。要想理解费希尔的数学语言,我们需要坚实的微积分基础、敏锐的概率分布理论视角和一定的多维几何知识。不过,他的结论理解起来要容易得多。

费希尔将小麦产量的时间走向分解成了几个部分。第一部分是土壤退化导致的产量总体稳步减小。第二部分是长期缓慢的变化,每个变化阶段为期数年。第三部分是由不同年份气候变化导致的一组迅速改变的变化。自从费希尔做了这些开创性工作以来,关于时间序列的统计分析一直以他的思想和方法为基础。我们现在的计算机可以用巧妙的算法进行大量计算,但这些基本的思想和方法一直保持不变。面对一组随时间变动的数据,我们可以根据不同影响因素将它们分解成不同部分。时间序列分析可以让我们通过研究美国太平洋海岸的海浪,确定印度洋的风暴;分辨地下核爆炸与地震;根据心跳确定疾病类型;量化环境法规对空气质量的影响;而且,这种方法的应用范围还在不断扩大。

在对一片叫做“宽埂”的田地进行粮食收成分析时,费希尔遇到了一个难以解释的问题。这片田地只使用过自然界的动物粪便,因此不同年份的产量变化不可能是实验所用肥料导致的。产量的长期下降可以得到解释,因为肥料中富含的营养物质在土壤中的含量越来越少。此外,他还可以确定不同降水量模式对不同年份产量变化的影响。那么,这些缓慢的变化到底是什么因素引起的呢?缓慢的变化模式显示,产量从1876年开始下降,其剧烈程度超出了另外两个因素所产生的预期效果。从1880年开始,这种下降变得更加剧烈。1894年,产量开始改善,这种状况持续到了1901年,之后又开始下降。

费希尔发现了另一份具有相同变化模式但方向相反的记录,那就是小麦田地中杂草的生长情况。从1876年开始,杂草变得越来越多,包括一些新的多年生品种。到了1894年,杂草突然开始减少,直到1901年才重新恢复增长。

事情是这样的。在1876年以前,人们会雇用小男孩到田里除草。当时,英国人经常可以在下午看到孩子们在田里疲惫地劳动,在小麦和其他粮食作物中间辛勤地寻找杂草。1876年,《教育法》规定孩子必须上学,大批小男孩在田地上消失。1880年,另一部《教育法》规定不让孩子上学的家庭需要接受处罚,最后一批男孩子也离开了田地。没有了孩子们的约束,杂草开始疯狂生长。

1894年发生了什么扭转这一趋势的事情呢?洛桑附近有一所女子寄宿学校,新校长约翰·劳斯爵士(Sir John Lawes)认为高强度的户外活动有利于孩子们的健康。他联系了实验站主任,然后在晚上和星期六把女孩子们带到田里除草。1901年,约翰爵士去世了,小女孩们重新开始了室内活动,“宽埂”上的杂草又长了出来。