全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
5251 11
2017-10-25
输入的变量全是连续数值,有15个。输出的变量为是否故障(0-1)。样本总数是80左右,正负样本各占一半。出现以下问题:

1)不论多少树,准确率都低于40%,也就时低于随机选择;

2)树越多准确率越低。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-10-25 11:03:17
样本容量太小,经过抽样后构建的训练集已已经无法反映原始数据的信息。最后的办法就是增加样本容量。如果无法增加样本容量,替代的方法就是把数据复制3~5次,当作重复,会明显改善预测准确率,虽然这样做可能不是很对。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-10-25 11:15:57
qiu435 发表于 2017-10-25 11:03
样本容量太小,经过抽样后构建的训练集已已经无法反映原始数据的信息。最后的办法就是增加样本容量。如果无 ...
谢谢您!样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢(50%),换个思路,准确率低于40%,只要把正负预测的倒过来你不就提高到60%了吗,为什么算法不能主动这样 做。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-10-25 12:07:02
若の渡2.0 发表于 2017-10-25 11:15
谢谢您!样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢(50 ...
最好看一下这些变量的重要度。我猜测可能很多变量对预测起不到作用。
那么很多树在选取这些变量时,效果就差。
随机森林类似投票机制,学渣多了,学霸的声音被盖住了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-10-25 13:50:28
若の渡2.0 发表于 2017-10-25 11:15
谢谢您!样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢(50 ...
随机森林给出的预测率并不是准确率,而是OBB误差率,即使用随机抽样剩下的袋外数据进行预测,用于评估模型的分类效果的,是集合了所有树的平均值的。由于随机森林采用bootdtrap有放回的抽样,样本太小,会用可能一些观测值未被抽到,造成OBB误差太高。试下样本复制几次,作为重复看看。我也遇到过这样的情况。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-10-25 13:54:20
jameschin007 发表于 2017-10-25 12:07
最好看一下这些变量的重要度。我猜测可能很多变量对预测起不到作用。
那么很多树在选取这些变量时,效果 ...
含有重要度的低的变量并不会影响结果,但是对于每个节点上使用多少个变量,即mtry参数需要通过逐次计算进行优化。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群