R的缺失值处理解决了给10个币

⑸低下头吻你◎

2673

收藏 2011-11-26

http://archive.ics.uci.edu/ml/datasets/Hepatitis
hepatitis.csv

hepatitis.rar
大小:(2.09 KB)

马上下载

本附件包括：

hepatitis.csv

这个数据研究了一个星期的缺失值，怎么也处理不好。请各位高手给出意见。附件是我编辑好的数据。数据描述是连接。
就是研究生死和各个相关健康状态的分类数据。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

wxc0429

2011-12-28 18:37:51

我这有种方法，需要用到两个package，先提出缺失率比较大的观测，然后对剩余的缺失值进行填补，具体程序如下：
library(foreign)
library(DMwR)
read.csv("hepatitis.csv")->A
head(A)
A=A[-manyNAs(A,0.2),] #delete the observation that has NAs more then 20%
clean.A=knnImputation(A,k=10) #imputate the left NAs use the similarities between the rows