【转载】如何使用R语言解决可恶的脏数据

疯狂云焕

1440

收藏 2016-04-25

在数据分析过程中最头疼的应该是如何应付脏数据，脏数据的存在将会对后期的建模、挖掘等工作造成严重的错误，所以必须谨慎的处理那些脏数据。

脏数据的存在形式主要有如下几种情况：

1）缺失值2）异常值3）数据的不一致性

下面就跟大家侃侃如何处理这些脏数据。

一、缺失值

缺失值，顾名思义就是一种数据的遗漏，常见的缺失值汇总：

1）会员信息缺失，如身份证号、手机号、性别、年龄等

2）消费数据缺失，如消费次数、消费金额、客单价，卡余等

3）产品信息缺失，如批次、价格、折扣、所属类别等

根据实际的业务需求不同，可以对缺失值采用不同的处理办法，如需要给会员推送短信，而某些会员恰好手机号不存在，可以考虑剔除；如性别不知道，可以使用众数替代；如年龄未知，可以考虑用均值替换。当然还有其他处理缺失值的办法，如多重插补法。下面以一个简单的例子，来说明缺失值的处理。