使用决策树分类器进行花朵分类 - python论坛 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛

使用决策树分类器进行花朵分类

1533

1

收藏 2017-07-25

以下内容转自数析学院，只节选了部分，有需要的同学可以直接查看原文

创建一个 demo 机器学习模型，模型从花朵(萼片长度，萼片宽度，花瓣长度和花瓣宽度)进行四次测量，并根据这些测量值来识别物种。

开始将数据读入 pandas DataFrame。

复制代码

数据文件中的第一行定义了列名，描述足以让我们了解每列所代表的内容，甚至给了记录测量的单位。
第一行后面的每一行代表一个花的观测值：四个测量值和一个类，告诉我们花的种类。
首先，我们要找缺失数据。值得庆幸的是，研究人员告诉我们，当他们缺少测量值时，会将“NA”填入电子表格中。
如果 pandas 知道缺失值标记，我们可以告诉 pandas 自动识别缺失值。

复制代码

接下来，观察数据的分布 - 特别是离群值。

我们首先打印一些关于数据集的汇总数据。

复制代码

我们可以从这个表中看到几个有用的值。

不过，像这样的表很少有用，除非我们知道我们的数据应该在一个特定的范围内。通常以某种方式可视化更好。可视化使得异常值和错误立即脱颖而出，否则它们可能在一大张数字表格中被忽视。

进行 notebook 绘图设置

复制代码

接下来，我们来创建一个 scatterplot matrix。scatterplot matrix 沿着对角线绘制每列的分布，然后绘制每个变量的组合的散点图矩阵。它们为查找数据中的错误提供了一种有效的工具。

复制代码

从 scatterplot matrix，我们可以看到数据集的一些问题：

出现五个类，本应该只有三个，意味着有一些编码错误。

在测量中有一些明显的异常值可能是错误的： Iris-setosa 的 sepal_width_cm 条目在正常范围之外，几个 Iris-versicolor 的 sepal_length_cm 条目接近零。

我们不得不删除那些含有缺少值的行。

在这些情况下，我们需要弄清楚如何处理错误的数据。下面进入下一步整理数据

以上内容节选自数析学院，原文内容较多，先搬运到这，后续有时间再补充，有需要的同学可以先直接到数析学院最新课程查看原文

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2017-7-28 10:13:05

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群