交叉验证办法通常会把数据集分为5份,取4份作为训练集,1份作为测试集,共作5次,把误差平均起来作为衡量标准。用以下代码可以将一组数据随机分为5份。
n<-length(dataset)
index1<-1:n
index2<-rep(1:5,ceiling(n/5))[1:n]
index2<-sample(index2,n)
这个主要是为了检验你的模型的可靠性。只有你的预测准确度很高的时候,你才可以用你的模型去做相应的预测。否则,你的预测是没有说服力的。
你也可以用leave one out cross validation方法做相应的预测。也就是说你只用n-1个变量做模型,用一个量来检验其预测效果。
只要你的预测准确度足够高,你可以用你的所有现成数据做预测模型。做相应的预测。