之前介绍过 sklearn 库中的
安德森鸢尾花卉数据集最初是埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的形态学变异数据。该数据集中有150个鸢尾花的样本,都属于鸢尾属的三个亚属,山鸢尾(setosa)、变色鸢尾(versicolor)、维吉尼亚鸢尾(virginica):
每个样本都提供了花萼的长度(sepal length)和宽度(sepal width),花瓣的长度(petal length)和宽度(petal width)这四个特征:
该数据集的前5个样本如下(属种的0就代表“山鸢尾”):
该数据集的特征向量是4维的,本课只取后两个特征,即
容易观察出来,前两种类别(山鸢尾、变色鸢尾)是线性可分数据集,后两种类别(变色鸢尾、维吉尼亚鸢尾)非线性可分数据集:
本课就在后两种类别(即右图)上运用感知机的口袋算法。