如何理解统计中的特征函数？

马同学

如何理解统计中的特征函数？

先说结论，特征函数是随机变量的分布的不同表示形式。

一般而言，对于随机变量的分布，大家习惯用概率密度函数来描述。

比如说：

意思就是服从正态分布，对应的概率密度函数如下：

虽然概率密度函数理解起来很直观，但是确实随机变量的分布还有另外的描述方式，比如特征函数。

1 关于特征

1.1 剪影

下面是两个剪影：

是同一个人吗？不知道，看不清楚，不过如果知道这两个剪影的特征，比如：

名字
血型
身高
声音
...

以上特征如果都一样，那么：

1.2 泰勒级数

根据泰勒级数可知，两个函数的各阶导数相等的越多，那么这两个函数越相似：

也即是：

关于泰勒级数请查看这两篇文章：“泰勒公式，上”、“泰勒公式，下”。

那么，随机变量分布的特征有吗？

2 随机变量分布的特征

随机变量的特征有如下：

期望
方差
偏态
峰态
...

这些特征具体是什么含义就不解释了，说来话长。不过这些特征都跟随机变量的“矩”有关系（请参考“如何理解概率论中的矩？”）。

比如期望：

方差：

偏态：

可见这些特征都和各阶矩有关系。

直觉上可以有以下推论：

3 特征函数

随机变量的特征函数定义为：

为什么这么定义呢？首先，的泰勒级数为：

代入可以推出：

原来特征函数包含了分布函数的所有矩，也就是包含了分布函数的所有特征啊。

有数学家是这么形容特征函数（特征函数是下面文中的生成函数的一种）：

A generating function is a clothesline on which we hang up a sequence of numbers for display.

生成函数是一列用來展示一串数字的晾衣架。

----Herbert Wilf

特征函数看上去确实像把各阶矩串在绳子上：

所以我们可以进一步完善刚才的结论：

所以，特征函数其实是随机变量的分布的另外一种描述方式。

4 傅立叶变换

关于傅立叶变换可以参考以下文章：

4.1 特征函数是共轭傅立叶变换

假设某连续随机变量的概率密度函数为，那么可知：

特征函数是：

而的傅立叶变换为：

可见两者是共轭的关系：

也就是说，特征函数是的共轭傅立叶变化，共轭在这里影响不大，下面把特征函数当作傅立叶变换来理解。

4.2 特征函数相当于换了一个坐标系

傅立叶变换是什么？就好比在直角坐标系下，圆的方程为：

图示如下：

在极坐标系下，同样的圆的方程为：

坐标系下的图像为：

同一个数学对象，在不同坐标系中，有不同的表达形式：

傅立叶变换和直角坐标、极坐标的情况类似，相当于换了坐标系。

矩形波在时域“坐标系”中是这样的：

代数形式如下：

在频域“坐标系”中的图像如下：

代数形式如下（傅立叶变换有很多形式，本文采用下面这种形式）：

也是同一个数学对象，在不同“坐标系”中，有不同的表达方式：

所以，特征函数是把分布函数换了一个坐标系，当然是分布函数的另外一种表现形式：

5 特征函数的好处

正如把直角坐标系换到极坐标系，可以获得一些计算上的便利。

特征函数把分布函数换到另外一个坐标系，也可以获得一些计算的好处：

假如我们不知道分布函数，但是通过实验算出了期望、方差、偏度、峰度等，那么可以用特征函数去代替分布函数
两个分布函数的卷积（关于卷积请参考如何通俗地理解卷积？）：

通过特征函数更换坐标系后，可以变为更容易计算的乘法：
通过对求导，可以简单求出各阶矩：
...

关注马同学

微信公众号：matongxue314

马同学机器学习

监督式学习(更新中)

适合机器学习零基础入门

马同学图解数学

关注马同学

微信公众号：matongxue314

如何理解统计中的特征函数？

监督式学习(更新中)

线性代数(已完本)

单变量微积分(已完本)

多变量微积分(已完本)

概率与统计(已完本)