我来说几句:
train和validation一般来自同一个总体,具体比例依据实际情况而定,有5:5/6:4/7:3==。很多时候预测模型都是rare event,足够sample样本都很难得(如违约、欺诈),因此实际有些时候还是全部用于train,模型验证(test vs control)通过上线实施来确定。
理想情况下:
1、train用来拟合模型,可能对同一种算法有多种复杂度(涉及过拟合情况。甚至一次迭代认为是不同的模型或者不同复杂度的模型)的模型;
2、validation用来在上面多种复杂度的模型中选择出某一特定统计指标评估最优的模型,如decision tree的pruning;
多种模型(包括不同算法)的选择也是基于validation数据的某一特定统计指标(该指标可以同上面,如 误分类率/ASE/ROC/GINI/KS==,不同类型目标用不同指标评估)最优;
3、test一般独立于train和validation,是模型上线后用roll out数据做验证(control vs test);
training sample used to train the model; validation sample for validating and tuning the models; test sample for testing the model's ability to predit well on new data