为什么用随机森林填补缺失值？

998

收藏 2022-10-24

任何回归都是从特征矩阵中学习，然后求解连续型标签y的过程，之所以能够实现这个过程，是因为回归算法认为，特征矩阵和标签之前存在着某种联系。实际上，标签和特征是可以相互转换的，比如说，在一个“用地区，环境，附近学校数量”预测“房价”的问题中，我们既可以用“地区”，“环境”，“附近学校数量”的数据来预测“房价”，也可以反过来，用“环境”，“附近学校数量”和“房价”来预测“地区”。而回归填补缺失值，正是利用了这种思想

对于一个有n个特征的数据来说，其中特征T有缺失值，我们就把特征T当作标签，其他的n-1个特征和原本的标签组成新的特征矩阵。对于T来说，它没有缺失的部分，就是我们的y_test，这部分数据既有标签也有特征，而它缺失的部分，只有特征没有标签，就是我们需要预测的部分

随机森林缺失值填补的优点

1.随机森林填补通过构造多棵决策树对缺失值进行填补，使得填补得到的数据具有随机性和不确定性，更能反映出这些未知数据的真实分布；

2.随机森林填补由于在构造决策树过程中，每个分支节点选用随机的部分特征而不是全部特征，所以能很好的应用到高维数据的填补；

3.随机森林算法本身就具有很好的分类精度，从而也更进一步确保了得到的填补值的准确性和可靠性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群