全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
21249 10
2007-10-29

缺失值处理

缺失值是指在数据采集与整理过程中丢失的内容。

一般情况下,数据都是以关系型表的方式采集的,如下表是某次调查中一些受访者的基本情况见本文最后的表格。

如果在表格中,某一个数据采集时无法获得,就会出现缺失值,例如在上表中张三的性别和赵六的年龄就出现了缺失。

缺失值的处理一般有两种方式,一是删除对应的记录,例如在上例中,如果张三的性别没有记录,出现缺失,则将张三的所有信息全部从数据库中删掉。这种方式在数据缺失非常少的情况下是可行的,但如果各个项目中都有少数的数据缺失存在,对所有缺失的记录都进行删除可能就会使总样本量变得非常小,从而损失许多有用信息。缺失值处理的第二种方式是进行插值处理,所谓插值,是指人为地用一个数值去替代缺失的数值。

插值处理根据插值的不同,有如下一些方法:

1
.随机插值

根据缺失值的各种可能情况,等概率地进行插值。

例如在上例中,张三的性别有两种可能性,一是,二是,可以简单地掷一枚硬币,如果正面朝上,则赋值为,如果反面朝上,则赋值为

2
.依概率插值

随机插值是假定各种一个变量取各种值的可能性是相等的,但有些情况下,我们可以事先知道一个变量取各种值的概率,例如,我们知道在上述的单位中,女性占的比例是75%,男性的比例是25%,则在对张三的性别进行赋值时,不是按50%概率赋为,而是按75%概率赋为

3
.就近插值

就近插值是指根据缺失记录附近的其他记录的情况对缺失值进行插值,例如在上例中,张三的性别出现缺失,此时可以用其邻近的李四的性别数据替代张三的性别数据,由于李四的性别为,所以将张三的性别也赋为

就近插值是依概率插值的一种简化处理,设想在整个单位的职工中,女性占的比例是75%,则在一般情况下,与张三邻近的记录性别为的概率也应当为75%,就近插值实际上就是依概率插值。

使用就近插值时,需要对抽样过程进行必要的了解,如果抽样时性别有交叉的情况,例如经常是调查完一名男性后就调查一名女性,则使用就近插值就会出现较多的错误。

4
.分类插值

依概率插值是将记录置于总体的背景上进行插值,没有充分利用记录的其他信息。如果在记录的其他信息中有某些项目与缺失项目存在相关性,则可以根据这些辅助信息对总体进行分类,在每一类内部进行插值处理。

例如在上例中,张三的职业是护士,假定该单位中95%的护士性别为,则在进行插值是,就不是使用全单位的女性比例75%,而是使用护士中的女性比例95%对张三的性别进行赋值。

图片附件: [
数据表] .JPG (2006-6-17 01:18, 77.74 K)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2010-10-26 15:32:24
谢谢,很详细
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-5-4 13:39:47
zanyige
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-1-10 00:26:11
总结得真好!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-9 11:02:33
谢谢分享!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-9 13:34:36
总结的好,有帮助!!!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群