女士品茶:统计学如何变革了科学和生活
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

相关与回归

通过这种方法,高尔顿发现了一个现象,他称之为“均值回归”。实际上,如果父亲非常高,孩子往往比父亲矮;如果父亲非常矮,孩子往往比父亲高。似乎存在某种神秘力量让人类身高远离极端,朝着所有人的平均值靠拢。均值回归现象不仅仅适用于人类身高,几乎所有科学观测都面临着均值回归问题的困扰。我们将在第5章和第7章看到费希尔如何将高尔顿的均值回归转变成目前主导经济学、医学研究和大部分工程学的统计模型。

高尔顿对这个不同寻常的发现进行了思考,发现实际情况只能如此,即使不进行这些观测,他也能预测到这一现象。他认为,假如不存在均值回归现象,那么平均来说,高个子父亲的后代会和他们的父亲一样高。这样一来,有些儿子的身高就会超过父亲(为了平衡比父亲矮的儿子)。高个子父亲的后代这一代平均身高与父亲相同,所以有些儿子就会比父亲高。这种结果会一代一代持续下去。类似地,有的儿子会比父亲矮,一些孙子会更矮,依此类推。用不了许多代,人类当中就会出现一些越来越高的人和越来越矮的人。

这种情况并没有发生。平均来说,人类身高基本维持稳定。只有在非常高的父亲后代平均身高比他矮、同时非常矮的父亲后代平均身高比他高的情况下,才会出现这种结果。均值回归现象可以维持物种平稳,确保一个物种代与代之间保持基本的“相似性”。

高尔顿发现了对这种关系的一种数学度量,他称之为“相关系数”。高尔顿给出了一个公式,并根据生物统计实验室收集到的相关数据计算该系数。这是一个非常具体的公式,可以测量均值回归的一个参数,但它并不能告诉我们这种现象出现的原因是什么。高尔顿首先在这个语境下使用了“相关”这个词语。从此,这个词语融入了大众语言。“相关”常常用来表示某种比高尔顿的“相关系数”更为模糊的概念。它听上去是个科学术语,普通人常常随意使用这个词,仿佛它描述了两种事物的关联方式。不过,高尔顿使用的这个词语是有特指意义的,如果你使用这个词时并不是在描述高尔顿的数学度量,那么你对它的使用就不是很准确,或者说不是很科学。