小弟最近读文章,关于信用评分的。作者使用了cross-validation,关于这个我相信各位不陌生,为了能让大家帮到我,我说明下。作者将data分为100份,用其中99份去做training sample,另一份去做validation sample。那99份traning sample训练出的model被用来预测validation sample里的score。就这样重复100次啊100次。作者说为了得到ks,gini等系数的confidence interval,于是bootstrap was applied to the resulting validation sample to produce 95% confidence interval.这里小弟想问的就是,
(1)这里bootstrap是针对每份validation sample作,而后把这100个sample合到一起。还是先把那100份validation sample合到一起,而后作bootstraping。
(2)针对一个data,我如何做bootstrap。比如我做1000次bootstrap,能否产生1000个data set,又如何产生。
多谢多谢。十分紧急。