为什么样本方差（sample variance）的分母是 n-1？

马同学

为什么样本方差（sample variance）的分母是 n-1？

先把问题完整的描述下。

如果已知随机变量的期望为，那么可以如下计算方差：

上面的式子需要知道的具体分布是什么（在现实应用中往往不知道准确分布），计算起来也比较复杂。

所以实践中常常采样之后，用下面这个来近似：

其实现实中，往往连的期望也不清楚，只知道样本的均值：

那么可以这么来计算：

那这里就有两个问题了：

为什么可以用来近似？
为什么使用替代之后，分母是？

我们来仔细分析下细节，就可以弄清楚这两个问题。

1 为什么可以用来近似？

举个例子，假设服从这么一个正态分布：

即，，图形如下：

当然，现实中往往并不清楚服从的分布是什么，具体参数又是什么？所以我用虚线来表明我们并不是真正知道的分布：

很幸运的，我们知道，因此对采样，并通过：

来估计。某次采样计算出来的：

看起来比要小。采样具有随机性，我们多采样几次，会围绕上下波动：

用作为的一个估计量，算是可以接受的选择。

很容易算出：

因此，根据中心极限定理，的采样均值会服从的正态分布：

这也就是所谓的无偏估计量。从这个分布来看，选择作为估计量确实可以接受。

2 为什么使用替代之后，分母是？

更多的情况，我们不知道是多少的，只能计算出。不同的采样对应不同的：

对于某次采样而言，当时，下式取得最小值：

我们也是比较容易从图像中观察出这一点，只要偏离，该值就会增大：

所以可知：

可推出：

进而推出：

如果用下面这个式子来估计：

那么采样均值会服从一个偏离的正态分布：

可见，此分布倾向于低估。

具体小了多少，我们可以来算下：

其中：

所以我们接着算下去：

其中：

所以：

也就是说，低估了，进行一下调整：

因此使用下面这个式子进行估计，得到的就是无偏估计：

关注马同学

微信公众号：matongxue314

马同学机器学习

监督式学习(更新中)

适合机器学习零基础入门

马同学图解数学

关注马同学

微信公众号：matongxue314

为什么样本方差（sample variance）的分母是 n-1？

监督式学习(更新中)

线性代数(已完本)

单变量微积分(已完本)

多变量微积分(已完本)

概率与统计(已完本)