以下内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文
创建一个 demo 机器学习模型,模型从花朵(萼片长度,萼片宽度,花瓣长度和花瓣宽度)进行四次测量,并根据这些测量值来识别物种。
开始将数据读入 pandas DataFrame。
数据文件中的第一行定义了列名,描述足以让我们了解每列所代表的内容,甚至给了记录测量的单位。
第一行后面的每一行代表一个花的观测值:四个测量值和一个类,告诉我们花的种类。
首先,我们要找缺失数据。 值得庆幸的是,研究人员告诉我们,当他们缺少测量值时,会将“NA”填入电子表格中。
如果 pandas 知道缺失值标记,我们可以告诉 pandas 自动识别缺失值。
接下来,观察数据的分布 - 特别是离群值。
我们首先打印一些关于数据集的汇总数据。
我们可以从这个表中看到几个有用的值。
不过,像这样的表很少有用,除非我们知道我们的数据应该在一个特定的范围内。通常以某种方式可视化更好。可视化使得异常值和错误立即脱颖而出,否则它们可能在一大张数字表格中被忽视。
进行 notebook 绘图设置
接下来,我们来创建一个 scatterplot matrix。scatterplot matrix 沿着对角线绘制每列的分布,然后绘制每个变量的组合的散点图矩阵。它们为查找数据中的错误提供了一种有效的工具。
从 scatterplot matrix,我们可以看到数据集的一些问题:
出现五个类,本应该只有三个,意味着有一些编码错误。
在测量中有一些明显的异常值可能是错误的: Iris-setosa 的 sepal_width_cm 条目在正常范围之外,几个 Iris-versicolor 的 sepal_length_cm 条目接近零。
我们不得不删除那些含有缺少值的行。
在这些情况下,我们需要弄清楚如何处理错误的数据。下面进入下一步整理数据
以上内容节选自 数析学院,原文内容较多,先搬运到这,后续有时间再补充,有需要的同学可以先直接到 数析学院 最新课程查看原文