如果根据生成模型的思路,就需要根据刚才的数据集生成正、负类的概率分布。
(1)在概率论中,扔一枚硬币,结果可能为正面也可能为反面,这样的分布称为伯努利分布。在这里,某封邮件中可能包含“便宜”(不论出现多少次)也可能不包含,所以也是伯努利分布。只是这里还有“买”这个关键字(甚至可以有更多的关键字),所以有两个伯努利分布,这种多个伯努利分布的联合就称为多元伯努利。
(2)再解释下这个分布列,比如表中标红的这一项:
该项表示是没有“便宜”、只有“买”的邮件在正常邮件中的概率,根据垃圾邮件分类数据集,正常邮件(也就是
在 6 封邮件中有 2 封,所以概率为
在统计中,通常会用随机变量
又这是正常邮件的分布列,即是
同样的道理可得垃圾邮件的分布,即
代表的是在垃圾邮件中,即没有“便宜”又没有“买”的邮件的概率为 0。