从前面两节的分析可以得知,对于贝叶斯分类器有:
也就是说,贝叶斯分类器需要的数据量正比于
以垃圾邮件分类数据集为例,它有两个特征“便宜”和“买”。在正常邮件中,或者在垃圾邮件中,如果这两个关键字毫无关系,那么就称为条件独立(Conditional Independence)。用代数表示即为:
该定义可以推广到
有了条件独立假设后,对于 2 个特征的数据集只需要知道下面
就可以推出正类的分布,比如想知道
同样的道理,有 3 个特征的话,只需要知道下面
所以,有了条件独立假设后,贝叶斯分类器需要的数据量大大减少:
从而使得学习具有了可行性。