如何理解泊松分布?

通过泊松分布解决馒头店老板的烦恼
1 甜在心馒头店

公司楼下有家馒头店:

每天早上六点到十点营业,生意挺好,就是发愁一个事情,应该准备多少个馒头才能既不浪费又能充分供应?

老板统计了一周每日卖出的馒头(为了方便计算和讲解,缩小了数据):

均值为:

按道理讲均值是不错的选择(参见“如何理解最小二乘法?”),但是如果每天准备5个馒头的话,从统计表来看,至少有两天不够卖,的时间不够卖:

你“甜在心馒头店”又不是小米,搞什么饥饿营销啊?老板当然也知道这一点,就拿起纸笔来开始思考。

2 老板的思考

老板尝试把营业时间抽象为一根线段,把这段时间用来表示:

然后把的三个馒头(甜在心馒头是有褶子的馒头)按照销售时间放在线段上:

均分为四个时间段:

此时,在每一个时间段上,要不卖出了(一个)馒头,要不没有卖出:

在每个时间段,就有点像抛硬币,要不是正面(卖出),要不是反面(没有卖出):

内那么卖出3个馒头的概率,就和抛了4次硬币(4个时间段),其中3次正面(卖出3个)的概率一样了。

这样的概率通过二项分布来计算就是:

但是,如果把的七个馒头放在线段上,分成四段就不够了:

从图中看,每个时间段,有卖出3个的,有卖出2个的,有卖出1个的,就不再是单纯的“卖出、没卖出”了。不能套用二项分布了。

解决这个问题也很简单,把分为20个时间段,那么每个时间段就又变为了抛硬币:

这样,内卖出7个馒头的概率就是(相当于抛了20次硬币,出现7次正面):

为了保证在一个时间段内只会发生“卖出、没卖出”,干脆把时间切成份: