全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
1522 3
2013-07-31
最近碰到一个sampling的问题,用的是SRS方法,直接从500个原始数据里面选出50个数据出来,我的初步构想就是比较sample(其实就是原始数据的一个subset)和原始数据的mean啊,median啊,kernel啊什么的。如果有图的话,可以比较一下historgram和density。但是我发现所有overlay historgram和density的话,都是对同一数据,有没有对不同数据(sample是原始数据的subset)画图进行overlay啊,而且最后就算图像上能够显示出来的话,这两个图像的相似度也是相当主观的,有什么别的比较客观的因素去判定sample比较好的表达原始数据了呢?想和大家讨论一下
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-7-31 17:39:36
如果想保证样本分布和原数据分布尽量保持一致,可以采取局部随机抽样的方法,比如:你可以将500个原数据的分布切割成50份,然后在每一个区间内随机抽取一个数,共抽50个数构成你想要的样本。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-8-1 01:16:33
谢谢,这是一个很好的idea。我想除了客观上比较他们的mean啊,median啊,kernel啊在数值上比较接近的话,有没有什么直观的方法,从图像上比较呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-8-1 15:58:09
不论是从统计量来看还是从图像上看,都是比较直观的判断。你可以进行N次抽样,然后从中选取一个与原数据误差较小的样本作为你的分析样本。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群