R语言randomForest中进行分类，处理的数据有大量的missing value该如何是好

dqhl1990

5536

收藏 2015-05-15

如题，不知道该怎么处理了，请各位指点迷津

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

ryoeng

2015-5-15 11:08:33

提示: 作者被禁止或删除内容自动屏蔽

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dqhl1990

2015-5-15 11:24:21

ryoeng 发表于 2015-5-15 11:08
NA值的话，na.omit 应该就可以可吧？

我看到文档里说是少量的NA的话可以用，但是我的数据集里面feature特别多，相应的每一个样本就有很多的missing value了，na.omit因该是直接删除含有na的样本的意思吧，这样的话估计就都删除了，对不？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2015-5-15 11:52:33

关键要先确定，NA 为什么成为missing data 了！！然后R 中学习相应的NA处理的统计包！有很多。。。
如公司财务报表，很少有公司，每项财务数据都存在的，因此NA 实为零！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dqhl1990

2015-5-15 15:33:28

jgchen1966 发表于 2015-5-15 11:52
关键要先确定，NA 为什么成为missing data 了！！然后R 中学习相应的NA处理的统计包！有很多。。。
如公司 ...

恩，情况是这样的，数据集是我从大量病人的病情记录中提取的有关病人的信息，可想而知，每位病人所记录的信息是不相同的（比如某个病人记录中说该病人有高血压，而另外的一个病人的记录中说该病人没有高血压，第三个病人的记录中没有关于高血压的记录，那么，第三个病人这个case在高血压这个feature上就是NA了）像这样的情况非常多，很有可能某个病人的一个信息在其他所有病人的记录中都没有提到过。这也就造成了我数据集中大量的Missing Value了。我刚刚开始学习数据挖掘，很多东西都还不会，面对这里的大量Missing Value就犯了难，所以想问问，在random forest 算法中对于大量Missing value的处理方法是什么了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lawliet0719

2015-5-16 02:28:12

dqhl1990 发表于 2015-5-15 15:33
恩，情况是这样的，数据集是我从大量病人的病情记录中提取的有关病人的信息，可想而知，每位病人所记录的 ...

首先像jgchen1966说的那样，先研究一下每个feature如果有miss的话miss的原因是什么，能不能统一解决
如果不行的话，我会：
1. 如果是numerical value，用knn之类的machine learning algorithm去填补（用已知的feature当predictor）
R package “mi” 有可以impute missing value的function可以试试
2. 如果是categorical value，可能会稍微复杂点，但是也可以试试k mode之类的algorithm去填补

总之最主要的一点是，在impute的时候一定要有道理，不能随便填，有的时候mi填出来的数据不合理，这种时候要自己调整（比如说应该都是正数，但是出来了负数）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群