全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
3014 8
2017-05-20
悬赏 588 个论坛币 未解决
各位好,
遇到一个问题
同样一个数据,同样的参数,用randomForest包中的函数与h2o.randomForest预测结果相差非常大。
我的问题是一个分类问题,预测目标为TARGET,最后用AUC评判预测结果,在test数据上测试,
randomForest模型的AUC为0.60,而h2o.randomForest达到了0.79,求教各位什么原因。

我把代码和数据都附在附件中。



test codes.rar
大小:(736 Bytes)

 马上下载

本附件包括:

  • test codes.R


example data.rar
大小:(356.63 KB)

 马上下载

本附件包括:

  • example data.csv



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-5-20 19:33:02
谁能帮我回答,加50元现金报酬。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-5-20 22:26:47
在运用h2o.randomForest时,下面这几个变量被剔除了:
delta_imp_reemb_var17_1y3, imp_reemb_var17_ult1, num_reemb_var17_ult1, delta_num_reemb_var17_1y3
因为这几个变量是“数值不变的变量”,例如,delta_imp_reemb_var17_1y3取值全为0.
还有,你的数据不干净,有的用科学记数法表示,有的又不是,还有“-1”,"-1"是缺失值吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-5-20 23:21:15
starterran 发表于 2017-5-20 22:26
在运用h2o.randomForest时,下面这几个变量被剔除了:
delta_imp_reemb_var17_1y3, imp_reemb_var17_ult1, ...
可是,去掉那些变量后,randomForest和h2o.randomForest还是差别很大,不是变量的问题吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-5-22 13:20:34
h2o.randomForest  在参数设计上,比randomForest 更精细更多,因此,更有可能 因模型参数设定”碰巧“ 更“到位”,会获到更好模型,当然也更可能”过拟“。但是,h2o.randomForest 中这大量的参数与模型绩效的关系,至今未见系统的研究。。针对专门手上数据,只有不断试误地摸索了!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-5-22 13:22:55
jgchen1966 发表于 2017-5-22 13:20
h2o.randomForest  在参数设计上,比randomForest 更精细更多,因此,更有可能 因模型参数设定”碰巧“ 更“ ...
同时,虽作者未明说,以本人经验,两者的模型运行机制可能存重大差异!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群