全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2673 3
2011-11-26
http://archive.ics.uci.edu/ml/datasets/Hepatitis
hepatitis.csv
hepatitis.rar
大小:(2.09 KB)

 马上下载

本附件包括:

  • hepatitis.csv

这个数据研究了一个星期的缺失值,怎么也处理不好。请各位高手给出意见 。附件是我编辑好的数据。数据描述是连接。
就是研究生死 和 各个相关健康状态的分类数据。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-12-28 18:37:51
我这有种方法,需要用到两个package,先提出缺失率比较大的观测,然后对剩余的缺失值进行填补,具体程序如下:
library(foreign)
library(DMwR)
read.csv("hepatitis.csv")->A
head(A)
A=A[-manyNAs(A,0.2),]  #delete the observation that has NAs more then 20%
clean.A=knnImputation(A,k=10)  #imputate the left NAs use the similarities between the rows
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-6-18 13:35:21
因为你要研究的是分类问题。建议用随机森林的办法补齐确实值,这样可以方便你进行分类问题的模型处理。
library(missForest)
missForest(dataframe)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-22 17:29:23
snakepointid 发表于 2015-6-18 13:35
因为你要研究的是分类问题。建议用随机森林的办法补齐确实值,这样可以方便你进行分类问题的模型处理。
li ...
spss里面分类变量该如何操作啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群