随即森林regression时需要对数据进行交叉检验吗？

1886

收藏 2014-11-11

我想研究的是股票收益率受什么因素的影响，变量分别为所属板块，发行价，市盈率，流通盘等。

我的数据里面有58只股票，我想问的是我可以自行选择哪些作为training data，哪些作为testing data吗？好像数据挖掘的书里说是不可以的，因为这样无法保证数据的稳定性。

请问各位大神，如何用R实现交叉验证以便找出分类训练集和测试集的办法呢？

但是如果是按照交叉验证的办法来建模，那么我还有一些待测试的股票数据又怎么来进行预测呢？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

hubifeng？

2014-11-11 19:46:49

交叉验证是为了让结果更加可靠，想不想做当然看你自己了
数据量比较大，就抽取20%数据作为测试集，当然也可以用所有数据去训练
R的实现方法，参考:
https://github.com/wehrley/wehrl ... aster/SOUPTONUTS.md
其他，参考:
https://bbs.pinggu.org/thread-3236834-1-1.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lww1993

2014-11-12 17:25:50

交叉验证办法通常会把数据集分为5份，取4份作为训练集，1份作为测试集，共作5次，把误差平均起来作为衡量标准。用以下代码可以将一组数据随机分为5份。
n<-length(dataset)
index1<-1:n
index2<-rep(1:5,ceiling(n/5))[1:n]
index2<-sample(index2,n)
这个主要是为了检验你的模型的可靠性。只有你的预测准确度很高的时候，你才可以用你的模型去做相应的预测。否则，你的预测是没有说服力的。

你也可以用leave one out cross validation方法做相应的预测。也就是说你只用n-1个变量做模型，用一个量来检验其预测效果。

只要你的预测准确度足够高，你可以用你的所有现成数据做预测模型。做相应的预测。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lww1993

2014-11-12 17:27:21

http://f.dataguru.cn/thread-268074-1-1.html这是一篇文献。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群