多元伯努利分布

如果根据生成模型的思路,就需要根据刚才的数据集生成正、负类的概率分布。

1 正常邮件的分布
先从正常邮件入手,根据垃圾邮件分类数据集可得一个概率分布列,这是一个多元伯努利分布(Multi-Variate Bernoulli Distribution):

这里有几点需要解释一下。

        (1)在概率论中,扔一枚硬币,结果可能为正面也可能为反面,这样的分布称为伯努利分布。在这里,某封邮件中可能包含“便宜”(不论出现多少次)也可能不包含,所以也是伯努利分布。只是这里还有“买”这个关键字(甚至可以有更多的关键字),所以有两个伯努利分布,这种多个伯努利分布的联合就称为多元伯努利。

        (2)再解释下这个分布列,比如表中标红的这一项:

该项表示是没有“便宜”、只有“买”的邮件在正常邮件中的概率,根据垃圾邮件分类数据集,正常邮件(也就是的邮件)总共有 6 封,其中这样的邮件有 2 封,就是标红的 2 封:

在 6 封邮件中有 2 封,所以概率为。其它的项以此类推。

在统计中,通常会用随机变量代表“便宜”,代表“买”,因此上述分布列又常写作:

又这是正常邮件的分布列,即是时的分布列,所以上述分布列可以表示为

2 垃圾邮件的分布

同样的道理可得垃圾邮件的分布,即的分布:

练习题 就上面的分布而言,的值为多少? 0/4 1/4 答案为 0/4,即表中红色的一项:

代表的是在垃圾邮件中,即没有“便宜”又没有“买”的邮件的概率为 0。

关注马同学
马同学高等数学
微信公众号:matongxue314