全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
6071 4
2016-04-29
做的是文本分析,第一次做的有3000+个变量,结果如下

OOB estimate of  error rate: 27.92%
Confusion matrix:
      多 非多 class.error
多   183   81   0.3068182
非多  77  225   0.2549669

第一次做好后用“多”和“非多”类importance排序,各取前300,去重,去掉无意义的词语(如一些英文字母、数字等,符号等,stop word没有包含到的),结果却成了下面这样。OOB提高不少。

OOB estimate of  error rate: 32.51%
Confusion matrix:
      多 非多 class.error
多   144  120   0.4545455
非多  64  238   0.2119205

请问这是怎么回事呢?我的操作上有没有什么问题?非常感谢!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-4-30 01:09:17
importance排序,与变量“相关性”,还是差距很远的!用importance排序筛选变量,尤其只用一次计算的结果,可能失去对依变量相关性高的自变量,是分类结果变差。用randomForest 中的importance排序筛选变量,是一个很热的研究课题,百度学术 可查到一些!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-4-30 14:35:17
jgchen1966 发表于 2016-4-30 01:09
importance排序,与变量“相关性”,还是差距很远的!用importance排序筛选变量,尤其只用一次计算的结果, ...
不好意思我是个小白……我搜到了random forest importance feature selection 这方面的,您说的是这个吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-5-1 00:01:59
caisinong 发表于 2016-4-30 14:35
不好意思我是个小白……我搜到了random forest importance feature selection 这方面的,您说的是这个吗
OK   randomforest  feature selection
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-5-2 01:20:28
jgchen1966 发表于 2016-5-1 00:01
OK   randomforest  feature selection
谢谢!顺藤摸瓜,恶补了许多知识
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群