全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
5635 5
2014-11-22
想利用sample和boot进行抽样,有几点请教一下:
(1)sample()和boot()都是随机抽样吧?抽出的样本的分布于原来数据的分布是否一样?如果原来的分布不是正态分布,那抽出来的样本一定是正态分布吗?
(2)原来数据的分布多种可能,不一定是正态分布,每次抽样的得到均值于原来数据的均值之间的差距受什么因素影响较大?受原来数据分布的影响程度大吗?

希望明白resample或bootstrap的大侠能给指点一下!谢谢!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-11-22 15:51:16
比较专业
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-3-23 17:40:20
都是随机抽样,但是样本的分布,跟你抽样的方法有关系,否则两者的分布就没办法保持一致了
这个需要重新看一下“抽样和抽样分布”的内容
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-5 07:57:17
Mark
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-5 17:53:58
1、sample()和boot()都是随机抽样,两者功能不同。前者返回抽出的样本序号,后者返回根据抽出样本计算的统计量值,即bootstrap统计量;
2、由于sample()是完全随机抽样,理论上抽出样本的分布应该与原分布一致,但受原数据量和抽取样本量的影响,特别是后者。样本量小时可能出现分布不一致的情况;
3、boot()抽样计算的bootstrap统计量,其分布大多数情况下都呈正态分布,不论原分布是否正态,但受原数据量和重抽样次数的影响。原数据量越大和重抽样次数越多,bootstrap统计量的正态性越好。此外,原数据可能的取值数也有影响,比如对有限取值的原数据(常见于量表问题的有限答案),用bootstrap计算百分位数,其正态性往往较差。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-6 08:36:45
lanyajia 发表于 2015-4-5 17:53
1、sample()和boot()都是随机抽样,两者功能不同。前者返回抽出的样本序号,后者返回根据抽出样本计算的统计 ...
谢谢!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群