全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1436 0
2022-10-27

类别型数据缺失处理方法有:

(1)直接忽略法。例如:当数据有缺失值时,则将整笔数据删除。直接忽略法是处理数据缺失最简单的方法,一般的,当缺失数据占整个字段所有数据的比例过大时(>50%),便可直接删除。直接忽略法适用于搜集的数据量很多,而缺失数据只占一小部分的情况。这种方法也有其缺点,即当数据缺失比例很可观时,会造成大量数据流失数据的目标字段的值是空值的时候,使得数据分析结果不准确。

(2)人工填补法。人工填补法即使用人力再收集缺失的数据。例如当某会员数据的生日属性有缺失,可打电话询问该会员,以取得其生日并加以填补。通常这种方法很费时,因此当数据集很大且缺失值很多的时候,该方法可能行不通。

(3)自动填补法。对同一个属性的所有缺失值,用一个事先确定好的值来填补,例如:都用“Unknown”来填补。但当一个属性的缺失值较多的时候,该方法会误导挖掘过程。也可以填入该属性的众数(Mode),如下表中Risk的众数是high,所以缺失值可以填补为high,但是填补众数的方法不够客观。我们也可用分群的方式,分类求众数,比如credit与Risk之间存在相关性,因为在下表中我们可以看出credit中有5个green,而其中4个green都对应着Risk=high,所以当credit=green时,Risk更有可能是high,所以在第二行的Risk可以被填补为high,这样的填补方法更加准确。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群