主元分析也就是PCA,主要用于数据降维。
比如说有如下的房价数据:
这种一维数据可以直接放在实数轴上:
不过数据还需要处理下,假设房价样本用表示,那么均值为:
然后以均值为原点:
以为原点的意思是,以为0,那么上述表格的数字就需要修改下:
这个过程称为“中心化”。“中心化”处理的原因是,这些数字后继会参与统计运算,比如求样本方差,中间就包含了:
用“中心化”的数据就可以直接算出“房价”的样本方差:
“中心化”之后可以看出数据大概可以分为两类:
现在新采集了房屋的面积,可以看出两者完全正相关,有一列其实是多余的:
求出房屋样本、面积样本的均值,分别对房屋样本、面积样本进行“中心化”后得到:
房价()和面积()的样本协方差是这样的(这里也是用的一致估计量):
可见“中心化”后的数据可以简化上面这个公式,这点后面还会看到具体应用。
把这个二维数据画在坐标轴上,横纵坐标分别为“房价”、“面积”,可以看出它们排列为一条直线:
如果旋转坐标系,让横坐标和这条直线重合:
旋转后的坐标系,横纵坐标不再代表“房价”、“面积”了,而是两者的混合(术语是线性组合),这里把它们称作“主元1”、“主元2”,坐标值很容易用勾股定理计算出来,比如在“主元1”的坐标值为:
很显然在“主元2”上的坐标为0,把所有的房间换算到新的坐标系上:
因为“主元2”全都为0,完全是多余的,我们只需要“主元1”就够了,这样就又把数据降为了一维,而且没有丢失任何信息:
上面是比较极端的情况,就是房价和面积完全正比,所以二维数据会在一条直线上。
现实中虽然正比,但总会有些出入:
把这个二维数据画在坐标轴上,横纵坐标分别为“房价”、“面积”,虽然数据看起来很接近一条直线,但是终究不在一条直线上:
那么应该怎么降维呢?分析一下,从线性代数的角度来看,二维坐标系总有各自的标准正交基(也就是两两正交、模长为1的基),:
在某坐标系有一个点,,它表示在该坐标系下标准正交基的线性组合:
只是在不同坐标系中,的值会有所不同(旋转的坐标表示不同的坐标系):
因为到原点的距离不会因为坐标系改变而改变:
而:
所以,在某坐标系下分配给较多,那么分配给