全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1955 2
2020-09-17
    我有一个数据集样本容量是500的数据集,他们是一个地区的年龄,这个500个总体里抽取出来的一个样本,我用bootrap来估计以下总体的年龄到底在什么区间内,自助法就是放回抽样,大多数文献都是抽取一个固定的数值,然后重复1000-10000次,然后统计1000/10000次的均值分布。来估计,但我每一次抽多少出来改怎么确定呢,我可以每一次抽10个 50个甚至500个,这种每一次抽出的数字该如何确定,以及我需要生成扩展样本到多少样本量和合适呢,我是要扩展到700,还是800还是5000?如有了解的同学请指点以下十分感谢

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-9-18 08:50:05
bootstrap是每一次抽取的数目都跟原样本容量一样,而抽取的次数是越多越好
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-9-20 23:38:31
maths_hjxk 发表于 2020-9-18 08:50
bootstrap是每一次抽取的数目都跟原样本容量一样,而抽取的次数是越多越好
首先谢谢回复,我是想要扩大样本量来做分析,我样本集X是7000个为1014年样本,通过聚类得到A,B,C三类,有一个自己的比例,我通过预测模型知道了在2020年X样本集中的A,B,C比例是20% 50% 30%,但是并不知道每一类的总数是多少,这样我不知道最后要重抽处多少才合适。就是要生成处多少才合适
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群