R随机森林做二元分类遇到问题！

若の渡2.0

5543

收藏 2017-10-25

输入的变量全是连续数值，有15个。输出的变量为是否故障（0-1）。样本总数是80左右，正负样本各占一半。出现以下问题：

1）不论多少树，准确率都低于40%，也就时低于随机选择；

2）树越多准确率越低。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

qiu435

2017-10-25 11:03:17

样本容量太小，经过抽样后构建的训练集已已经无法反映原始数据的信息。最后的办法就是增加样本容量。如果无法增加样本容量，替代的方法就是把数据复制3~5次，当作重复，会明显改善预测准确率，虽然这样做可能不是很对。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

若の渡2.0

2017-10-25 11:15:57

qiu435 发表于 2017-10-25 11:03
样本容量太小，经过抽样后构建的训练集已已经无法反映原始数据的信息。最后的办法就是增加样本容量。如果无 ...

谢谢您！样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢（50%），换个思路，准确率低于40%，只要把正负预测的倒过来你不就提高到60%了吗，为什么算法不能主动这样做。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jameschin007

2017-10-25 12:07:02

若の渡2.0 发表于 2017-10-25 11:15
谢谢您！样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢（50 ...

最好看一下这些变量的重要度。我猜测可能很多变量对预测起不到作用。
那么很多树在选取这些变量时，效果就差。
随机森林类似投票机制，学渣多了，学霸的声音被盖住了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

qiu435

2017-10-25 13:50:28

若の渡2.0 发表于 2017-10-25 11:15
谢谢您！样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢（50 ...

随机森林给出的预测率并不是准确率，而是OBB误差率，即使用随机抽样剩下的袋外数据进行预测，用于评估模型的分类效果的，是集合了所有树的平均值的。由于随机森林采用bootdtrap有放回的抽样，样本太小，会用可能一些观测值未被抽到，造成OBB误差太高。试下样本复制几次，作为重复看看。我也遇到过这样的情况。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

qiu435

2017-10-25 13:54:20

jameschin007 发表于 2017-10-25 12:07
最好看一下这些变量的重要度。我猜测可能很多变量对预测起不到作用。
那么很多树在选取这些变量时，效果 ...

含有重要度的低的变量并不会影响结果，但是对于每个节点上使用多少个变量，即mtry参数需要通过逐次计算进行优化。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

jameschin007

2017-10-25 14:02:24

qiu435 发表于 2017-10-25 13:54
含有重要度的低的变量并不会影响结果，但是对于每个节点上使用多少个变量，即mtry参数需要通过逐次计算进 ...

但是如果有大量重要度不高的变量，与预测关系不相关的变量存在，会影响预测的准确率吧。
我做feature selection 的时候，很明显有一个预测率随着feature逐渐减少的预测效果逐步提高，然后再下降的过程。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

若の渡2.0

2017-10-30 09:49:19

qiu435 发表于 2017-10-25 13:50
随机森林给出的预测率并不是准确率，而是OBB误差率，即使用随机抽样剩下的袋外数据进行预测，用于评估模型 ...

我将样本重复3、4次后，误差率确实小了很多，甚至达到了5%之内，但是随着带来了过拟合情况。也就是换了个样本群体，误差率陡升！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

qiu435

2017-10-31 11:20:06

若の渡2.0 发表于 2017-10-30 09:49
我将样本重复3、4次后，误差率确实小了很多，甚至达到了5%之内，但是随着带来了过拟合情况。也就是换了个 ...

那是必然的，这个只是样本太小的替代方法。最好的方法还是扩大样本容量。还有一种可能就是你的数据预测变量的解释率本来就不高，或者说预测变量与响应变量相关性不高

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

qiu435

2017-10-31 11:22:51

若の渡2.0 发表于 2017-10-30 09:49
我将样本重复3、4次后，误差率确实小了很多，甚至达到了5%之内，但是随着带来了过拟合情况。也就是换了个 ...

还有一个问题，你换样本群体与你的用来建模的数据是不是来自一个总体的，如果不是，那误差肯定会变大。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

若の渡2.0

2017-10-31 11:39:37

我最近工作也遇到了随机森立过拟合问题，但是样本是均衡的。虽然虽然时隔一年，学习各位前辈的讨论，获益匪浅。后边我决定选择若干importance变量重新训练。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

若の渡2.0

2017-10-31 11:39:37

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群