全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
4807 7
2012-05-07
悬赏 500 个论坛币 未解决
小弟最近读文章,关于信用评分的。作者使用了cross-validation,关于这个我相信各位不陌生,为了能让大家帮到我,我说明下。作者将data分为100份,用其中99份去做training sample,另一份去做validation sample。那99份traning sample训练出的model被用来预测validation sample里的score。就这样重复100次啊100次。作者说为了得到ks,gini等系数的confidence interval,于是bootstrap was applied to the resulting validation sample to produce 95% confidence interval.这里小弟想问的就是,
(1)这里bootstrap是针对每份validation sample作,而后把这100个sample合到一起。还是先把那100份validation sample合到一起,而后作bootstraping。
(2)针对一个data,我如何做bootstrap。比如我做1000次bootstrap,能否产生1000个data set,又如何产生。

多谢多谢。十分紧急。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-5-9 04:19:38
(1)我认为文章作者(不是搂主)了bootstrap的概念,混淆了bootstrap and cross-validation. 不过只是本人猜测。一般在做cross-validation, similar to this case, since you already have 100 validation sample. 那些parameter estimates (KS, gini) 已经产生了 100次,因此已经可以找到对应的Confidence Interval (C.I.),没有必要再做bootstrap.

如果硬是要做bootstrap, 也应该只是对应the validation sample of one validation process. In this way, we would have 100 times 95% C.I., which I don't see the reason.  

Further, the way to combine 100 validation samples together then perform bootstrapping would  be a worse idea, since I can't think of any statistical meaning with it.

(2) To a set of data, bootstrapping usually need you to define the times you want to repeat, it is often thought to be >500. In each bootstrap sample, you randomly select the observations with replacement, the sample size you select is the same as original sample.

For example, 你有size为1000的univariate data, 现在你想做500 times bootstrapping. 在第一次bootstrap的时候,你randamly sample the orignial data set 1000 times with replacement. Then you have the frist bootstrap sample. 第二次, 重复第一次的步骤,..., 直到你有了500个类似的bootstrap samples.

Finally, you can do whatever you want (parameter estimation) on each sample. It would give you 500 of them, so you can find their corresponding C.I.'s.

希望我的解释有点帮助, :)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-5-15 17:45:21
kai0456 发表于 2012-5-9 04:19
(1)我认为文章作者(不是搂主)了bootstrap的概念,混淆了bootstrap and cross-validation. 不过只是本人 ...
多谢,我应该不用管那么多,其实CI应该不差那么多的。你说在做100cross validation的时候,KS已经产生了100次。你的意思是我每次validation都对整个data,包括training and validation sample,做KS的计算么?谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-5-31 04:28:13
不大明白为什么对每个validation sample, 作者都要做一个CI。能把原文贴上来吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-5-31 15:01:18
楼主能否把那篇文章分享一下?或者发到我的邮箱tianrui1013@126.com,可以吗?谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-5-31 17:24:25
CTR1013 发表于 2012-5-31 15:01
楼主能否把那篇文章分享一下?或者发到我的邮箱,可以吗?谢谢!
行的。你等等
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群