全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
12304 10
2013-07-01
我想问一下RF用的是什么交叉验证方法呢?是jackknife还是k-fold?计算结果中有一行No. of variables tried at each split: 2,这是什么意思?是指的是2-fold交叉验证么?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-7-2 03:49:12
是mtry吗?
应该就不是K-FOLD的问题了,是每棵树里面的参数
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-7-4 16:19:29
vincenhe 发表于 2013-7-2 03:49
是mtry吗?
应该就不是K-FOLD的问题了,是每棵树里面的参数
下载RF包的时候有一片PDF说明,专门有个板块是:Random Forest Cross-Valdidation for feature selection,我按照这个给我的数据画出了一个图: QQ图片20130704160437.jpg   但是具体怎么看不太懂,求指教~我是设置了500棵树,我预测的准确率是92.98%,我猜想这是表示在接近20棵树的时候结果最优吗?我本科是学生物的,现在做生物统计,困难重重的,也找不到什么有用的参考书,真心感谢有这个论坛~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-7-5 02:25:51
No. of variables tried at each split 就是mtry了,这个是random forest 的一个参数,需要tune的。

这个图就是CV试了各个mrtry的值后得到的cv-error,按这图的话你可以设定mtry为20去run全部数据,应该就是最优化的设定了。
这个图已经是500课树的了。
mtry是每棵树每个split的时候randomly selected的variable cadidate。
这个是random forest唯一要tune的参数啦

PS:话说RF包行random forest快吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-7-5 15:30:35
vincenhe 发表于 2013-7-5 02:25
No. of variables tried at each split 就是mtry了,这个是random forest 的一个参数,需要tune的。

这个 ...
谢谢啦,RF运行挺快的,同样的数据,我用knn计算需要4个小时,用RF也就20分钟。
我是学生物的,对R不太熟悉,请您帮我看一下以下的说明对吗?谢谢
首先我用tuneRF确定mtry: tuneRF.jpg
根据这个图,可以让mtry=14.可是有个问题,就是要用命令fgl.res <- tuneRF(fgl[,-10], fgl[,10], stepFactor=1.5),这里我不清楚那个-10和10,还有stepFactor是根据什么确定的;
R里还有个rfcv,可以作图如下: QQ图片20130704160437.jpg
根据这个图可以让n.var=20,这个是说明文件中对于n.var的解释:n.var :vector of number of variables used at each step,求指教这怎么理解呢~


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-7-6 01:59:18
晓茜 发表于 2013-7-5 15:30
谢谢啦,RF运行挺快的,同样的数据,我用knn计算需要4个小时,用RF也就20分钟。
我是学生物的,对R不太熟 ...
第一个图不能确定mtry就用14的,当然那算法上或许真的是,可你写文章的话这图用处不大。
另外tuneRF的结果貌似不是太consistent

你下面rfcv的不就是挺好啊,那图基本可以说用18,或者19了。
当然你写文章出图的话plot上standard error,然后smooth一点的线,那就很好了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群