通俗来说,一句话、一段视频、一本书统统都可以称为信息。有的信息很干,我们就说它的“信息增益”大,而有的很水,那么就是“信息增益”小。
举个例子吧,比如因为工作原因,我新结识了一位小伙伴,现在想判断他是否值得交往,也就是想做一个“选择朋友”的决策。我择友的标准是“好人”,但是好坏不会写在人的脑门上,只能通过了解更多的信息来判断。信息知道的越多自然判断越准确。
当然,有的信息“信息增益”低,对“选择朋友”这个决策帮助小。比如抽烟、喝酒这个信息对“选择朋友”帮助就不大,好人、坏人都抽烟喝酒,比如于谦、于大善人就喜欢抽烟、喝酒、烫头:
而有的信息的“信息增益”很大,比如知道此人曾经因为故意伤人坐牢,那么“选择朋友”这个决策就很容易做了,基本就一票否决了。
通过上面的例子,大概弄清楚“信息增益”想表达什么了,下面来看看怎么转为数学概念。为了讲解,这里设计了一个表格,每一行代表一个人(表格没有考虑现实生活的复杂性,望大家从理解算法的角度来看待其中的数据):
假设人群中本身就好人、坏人各占一半。从表格中可以看到,“抽烟”或者“不抽烟”的人中好坏也是各占一半,因此,这个信息没有带来任何增益:
抽烟人中好坏各占一半
不抽烟人中好坏也各占一半
相对而言,“坐牢”这个信息更有用,也就是带来的增益更大。坐过牢的人大概率是坏人:
坐过牢的人中有3/4是坏人
没坐过牢的人只有1/4是坏人
下面就需要设计一个数学公式,通过它可以衡量(在判断好人、坏人这个问题上)“坐牢”的“信息增益”要大于“抽烟”的“信息增益”。
判断好人、坏人,在数学上和判断硬币的正反是相同的。所以先来讨论抛硬币:
抛硬币是服从伯努利分布的:
比如一开始认为