如何理解线性回归？

马同学

如何理解线性回归？

回归大致可以理解为根据数据集，拟合出近似的曲线，所以回归也常称为拟合（英文：Fit），像下列右图一样拟合出来是直线的就称为线性回归：

下面就来解释其中的一些细节。

1 线性回归

首先，为什么拟合曲线会被称为回归呢？

1.1 均值回归

“回归”这个词源于弗朗西斯·高尔顿爵士（英文：Sir Francis Galton，1822年2月16日－1911年1月17日）：

他发现高个子父亲的儿子身高会矮一些，而矮个子父亲的儿子身高会高一些（否则高个子家族会越来越高，而矮个子家族会越来越矮），也就是说人类的身高都会回到平均值附近，他将这种现象称为均值回归。

1.2 线性回归

高尔顿的研究过程用现在的数学语言来表述就是，首先对一些父子的身高进行了抽样，得到数据集；然后根据数据集拟合出一条直线；最后通过该直线就可以对某父亲的儿子的身高进行预测了：

数据集

拟合

预测

高尔顿拟合的直线方程为（单位为米）：

将方程和联立，可得：

也就是说这两条直线会交于点 (1.77, 1.77)，这说明身高低于1.77米的父亲，他的儿子身高会高一些；而高于1.77米的父亲，他的儿子身高会矮一些。：

所以这条拟合出来的直线，其实就表示了均值回归现象，因此拟合直线的过程被称为线性回归（英文：Linear Regression）。

2 经验误差函数

下面开始解释高尔顿是如何根据数据集来拟合直线的。先来介绍下线性回归的经验误差是什么。

2.1 假设空间

首先肯定是用直线来进行拟合：

所以假设空间为：

和感知机的假设空间差不多，只是少了函数。

2.2 数据集

在历史上，高尔顿总共采集了近千个父子身高的数据来拟合。本课为了方便讲解，我们从中抽取了六个（原始数据的单位是“英寸”，这里全部转为了“米”）作为数据集：

2.3 经验误差

随便找一条假设空间中的直线，对于某父亲身高，该直线给出的和真实的儿子身高是存在距离的，这个距离也称为点与直线的误差，高尔顿用两者差的平方来表示：

将数据集中所有点与该直线的误差加起来，再进行算术平均就是该直线在数据集上的经验误差：

其中表示该数据集的大小。

3 最小二乘法

有了经验误差函数之后，就可以利用上一单元介绍的经验误差最小原则来设计算法，从而在假设空间中挑选离最近的作为：

具体到线性回归中，其经验误差函数为：

根据经验误差最小原则，只需要求出使得该经验误差函数取得最小值的和：

实际上就得到了离最近的，本节就来介绍如何求解和。

3.1 凸函数

首先，将手上的数据集：

代入线性回归的经验误差函数后可得：

可见是关于和的函数，并且是凸函数（英文：Convex Function）。凸函数意味着画出来看上去是山谷：

3.2 凸函数的最小值

就如山谷肯定有最低点一样，凸函数肯定有最小值，这说明最小值是一定存在的。并且更重要的是，使得经验误差函数取得最小值的和，可以通过求解下面方程组得到：

三维的凸函数可能不好观察，我们看看二维的凸函数。比如就是二维的凸函数，它的图像是抛物线，最小值在谷底：

使函数取得最小值的可以通过求导得到：

因为线性回归的经验误差函数是平方之和，所以本节介绍的求解该经验误差函数的最小值的方法被称为，国内各种教材中也常称为。

4 代码实现

根据上一节描述的数学原理，可以借助 Python 来求出 w 和 b：

使得经验误差函数 RD(h) 取最小值的参数为：{w: 0.514133333333440, b: 0.858543999999819}

上面代码运行后，可以解出以及，得到的结果和高尔顿几乎一样：

至此我们就完成了一个简单的线性回归。至于为什么最小二乘法是正确的，可以看我们之后的课程，或者看如何理解最小二乘法。

关注马同学

微信公众号：matongxue314

马同学机器学习

监督式学习(更新中)

适合机器学习零基础入门

马同学图解数学

关注马同学

微信公众号：matongxue314

如何理解线性回归？

监督式学习(更新中)

线性代数(已完本)

单变量微积分(已完本)

多变量微积分(已完本)

概率与统计(已完本)