安德森鸢尾花卉数据集

之前介绍过 sklearn 库中的,该数据集只包含了两种类别。但它的特征向量是,一方面不好可视化,另一方面在其上直接运用感知机口袋算法的效果不好,所以下面来介绍 sklearn 库中的另外一个数据集:安德森鸢尾花卉数据集。

1 安德森鸢尾花卉数据集

安德森鸢尾花卉数据集最初是埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的形态学变异数据。该数据集中有150个鸢尾花的样本,都属于鸢尾属的三个亚属,山鸢尾(setosa)、变色鸢尾(versicolor)、维吉尼亚鸢尾(virginica):

每个样本都提供了花萼的长度(sepal length)和宽度(sepal width),花瓣的长度(petal length)和宽度(petal width)这四个特征:

该数据集的前5个样本如下(属种的0就代表“山鸢尾”):

2 线性可分与非线性可分

该数据集的特征向量是4维的,本课只取后两个特征,即来作图、分类。将150个点分类画出来如下:

容易观察出来,前两种类别(山鸢尾、变色鸢尾)是线性可分数据集,后两种类别(变色鸢尾、维吉尼亚鸢尾)非线性可分数据集:

本课就在后两种类别(即右图)上运用感知机的口袋算法。

关注马同学
马同学高等数学
微信公众号:matongxue314