条件独立假设

从前面两节的分析可以得知,对于贝叶斯分类器有:

也就是说,贝叶斯分类器需要的数据量正比于,所以导致了其需要海量的数据,而这在实操中是无法满足的,所以必须引入条件独立假设,从而使得所需要的数据量正比于。下面就来进一步解释。

1 条件独立假设

以垃圾邮件分类数据集为例,它有两个特征“便宜”和“买”。在正常邮件中,或者在垃圾邮件中,如果这两个关键字毫无关系,那么就称为条件独立(Conditional Independence)。用代数表示即为:

该定义可以推广到个特征:

2 数据量减少

有了条件独立假设后,对于 2 个特征的数据集只需要知道下面个概率:

就可以推出正类的分布,比如想知道只需要如下计算:

同样的道理,有 3 个特征的话,只需要知道下面个概率,就可以推出正类的分布:

所以,有了条件独立假设后,贝叶斯分类器需要的数据量大大减少:

从而使得学习具有了可行性。

关注马同学
马同学高等数学
微信公众号:matongxue314