1. 重复值处理数据清洗一般先从重复值和缺失值开始处理。重复值一般采取删除法来处理但有些重复值不能删除,它们在一些时候是具有实际意义的点。例如订单明细数据或交易明细数据等。
 
 
2.缺失值处理首先需要根据实际情况定义,填充缺失值的5种方法:
1.人工填写缺失值
2.使用一个全局常量填充缺失值
3.使用属性的中心度量(均值或中文数)填补缺失值
4.忽略元组。当单个属性缺失值百分比较多,影响预测结果的话,可删除
5.使用最可能的值填充缺失值。该值可由回归,贝叶斯或决策树归纳决定。
本教程使用替换法、插值法方法(均值替换、前向、后向替换和常数替换
)为例,图片如下:
 
 
3.异常值处理异常值也叫离群点,是指不符合数据一般行为或模型的对象。异常值出现频率较低,但又会对实际项目分析造成偏差异常值一般用过箱线图法(分位差法)或者分布图(标准差法)来判断。
 
 4.数据离散化数据离散化就指数值属性的初始值可以用区间标签或概念标签来替代。这样可以将连续的之变替换成离散的指标,这在数据挖掘中也称为概念分层。可以根据是否使用类信息,可以分为有监督的离散化(决策树、ChiMerge)和无监督的离散化(分箱、直方图、聚类)。
4.数据离散化数据离散化就指数值属性的初始值可以用区间标签或概念标签来替代。这样可以将连续的之变替换成离散的指标,这在数据挖掘中也称为概念分层。可以根据是否使用类信息,可以分为有监督的离散化(决策树、ChiMerge)和无监督的离散化(分箱、直方图、聚类)。
 下载链接
下载链接: