遗传天赋
社会科学在许多方面不同于自然科学,一个主要的区别在于,受控实验在社会科学中几乎行不通。如果一位物理学家想检验热对金属棒的作用,他可以把它加热到不同的温度,然后比较各个结果。如果一位经济学家想检验财政政策对国家经济的影响,他可以试行或不试行这个政策;但他不可能在相同条件下对
同一种
经济试行几种不同的税制。1880年左右,社会科学开始从凯特勒的早期工作发展出受控实验的一个代用品。最重要的工作是三个人完成的:高尔顿(Galton)
、埃奇沃思(Edgeworth)
和皮尔逊(Pearson)
。他们各在一个传统领域内知名:高尔顿在人类学方面,埃奇沃思在经济学方面,皮尔逊在哲学方面。他们一起把统计学从一种有争论的思想方式改造成一门或多或少精密的科学。我们只详细叙述高尔顿的经历。
高尔顿学医出身,但当他继承了一笔遗产后,便放弃了医学,开始周游世界。1860年,他把注意力转向气象学,并用图示方法,从一大堆不规则的数据中得出反气旋存在的结论。他涉猎心理学、教育学、社会学和指纹学,但到1865年,他的主要兴趣显现了——遗传特征。高尔顿想弄清楚遗传特征是怎样一代一代传下去的。1863年,他偶然读到凯特勒的著作,立即相信正态分布是普遍存在的。但他使用正态分布的方式与凯特勒所主张的迥然不同。高尔顿不把正态分布看作道德规范,而把它看作一种根据不同起因对数据进行分组的方法。例如,考察矮个子和高个子的一个混合群体。矮个子的身高符合正态分布,高个子的身高也是如此。但这两条曲线很不相同;特别是它们的尖峰将处在不同的位置。 合成 群体的身高绝不会形成正态分布,它的数学原因在于,叠加两个独立的正态分布一般不产生另一个正态分布,而得到一条双峰曲线(图18)。高尔顿推断正态分布只适用于“纯”种群;在混合种群中它将失效;通过分析它失效的方式,可把混合种群分离为它的纯分量。一个峰属于高个子,另一个峰属于矮个子。
图18 叠加两个正态分布得到一条双峰曲线
但就是这幅图画使高尔顿在研究遗传特征时大伤脑筋。假设纯种群的第一代具有正态分布的身高。每一个个体都繁衍后代,后代的身高大概也具有正态分布。然而,后代的峰高依赖于上代的峰高——否则特征“身高”是怎么遗传下来的?因此,下一代的身高由许多不同正态分布的叠加来描述。但如上所述,叠加正态分布一般不导致正态分布。结论: 当纯种群繁殖下一代时 , 所得到的不再是纯种群 。但这是荒唐的:原始“纯”种群本身毕竟是上一代的下一代!
直到1877年,高尔顿才解决了这个难题。那时他拥有关于甜豌豆的大量数据,表明相继各代事实上
的确
符合正态分布;他还有一种称作梅花阵(quincunx)的古怪实验仪器
,这仪器模拟数学的方法是让铅丸落入金属针阵列,铅丸在阵列中或左或右随机弹跳。他是这样解决这个难题的:由于双亲都来自一个纯种群,他们的后裔的各个正态分布
不是独立的
。因而它们在叠加下的性态是特殊的。事实上存在一个小小的数学奇迹:它们相关联的方式恰恰使得它们全部叠加的结果又形成一个正态分布。
高尔顿因这一结果的干净利落而受到震动,这促成了他的 回归 思想。高个子父母的孩子平均较矮;矮个子父母的孩子平均较高。这并不妨碍高个子父母的孩子高于矮个子父母的孩子,但后代的身高恰恰略向平均值靠拢。
1855年,高尔顿绘制了一张图,表示928名成年子女的身高与他们父母身高的关系(图19)。在图中,给定行和给定列上的数表示样本中具有在行的左端给出的平均身高的那些双亲有多少子女,而这些子女自身的身高与双亲身高的差则在列的上端给出。高尔顿注意到,给定范围内的数(如3~5或6~8)都沿着以整个群体的平均身高为中心的近似椭圆排列。这张图完全符合高尔顿的回归理论,并且由此产生了可从无规则数据中推演出内在趋势的 回归分析 方法。
图19 成年子女身高与他们父母身高关系的高尔顿图,显示出一种同心椭圆模式
高尔顿没有用准确的数学术语表达他的思想,而宁愿依靠带有他的梅花阵的图示和图解。埃奇沃思补充了数学严密性,拓宽了那些思想,并使它们的应用范围更广阔。皮尔逊是一位有能力的数学家,但数学天资逊于埃奇沃思,他以把那些方法推向世界所应具有的魄力和雄心从事着普及工作。空想家、实干家、推销家三者兼备,才能使统计学产生影响。


