自然界中存在大量的正态分布,比如女性的身高:
图片出自这里。
正态分布的英文名为:Normal Distribution,台湾翻译为常态分布,可见一斑。可是为什么这么常见呢?
弗朗西斯·高尔顿爵士(1822-1911),查尔斯·达尔文的表弟,英格兰维多利亚时代的博学家、人类学家、优生学家、热带探险家、地理学家、发明家、气象学家、统计学家、心理学家和遗传学家。
他发明了一个叫做高尔顿钉板的装置,展示了正态分布的产生过程:
我们来看看高尔顿钉板的细节,或许有助于我们理解正态分布为什么常见。
弹珠往下滚的时候,撞到钉子就会随机选择往左边走,还是往右边走:
一颗弹珠一路滚下来会多次选择方向,最终的分布会接近正态分布:
自然界中为什么会有那么多正态分布?下面开始胡诌了。
比如开头提到的女性身高,受到多个因素的影响,比如:
这些影响,就好像高尔顿钉板中的钉子:
要不对身高产生正面影响,要不对身高产生负面影响,最终让整体女性的身高接近正态分布。
中心极限定理说了,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布,其中有三个要素:
每次采样受到各种随机性的支配,就好像钉板中的钉子,对采样结果进行或者正面、或者负面的影响,最终让结果形成了正态分布。
高尔顿钉板还有两处细节:
在医学研究中很多分布就不是正态分布,对实施了前列腺癌症治疗的病人进行前列腺特异性抗原(Prostate specific antigen)的检测,检测结果的分布不是正态分布:
这里可能有两个原因导致了这一现象。
首先,样本取自实施了前列腺癌症治疗的病人,这些病人往往有各种各样的疾病,并不是全体人类样本,也就是说不够随机,所以结果很可能会偏向某一边。
其次,癌症并非是相加,癌细胞的分裂更像是乘法: