dqhl1990 发表于 2015-5-15 15:33 
恩,情况是这样的,数据集是我从大量病人的病情记录中提取的有关病人的信息,可想而知,每位病人所记录的 ...
首先像jgchen1966说的那样,先研究一下每个feature如果有miss的话miss的原因是什么,能不能统一解决
如果不行的话,我会:
1. 如果是numerical value,用knn之类的machine learning algorithm去填补 (用已知的feature当predictor)
    R package “mi” 有可以impute missing value的function可以试试
2. 如果是categorical value,可能会稍微复杂点,但是也可以试试k mode之类的algorithm去填补
总之最主要的一点是,在impute的时候一定要有道理,不能随便填,有的时候mi填出来的数据不合理,这种时候要自己调整(比如说应该都是正数,但是出来了负数)