怎样比较sample和原数据？ - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SAS专版

怎样比较sample和原数据？

1586

3

收藏 2013-07-31

最近碰到一个sampling的问题，用的是SRS方法，直接从500个原始数据里面选出50个数据出来，我的初步构想就是比较sample（其实就是原始数据的一个subset）和原始数据的mean啊，median啊，kernel啊什么的。如果有图的话，可以比较一下historgram和density。但是我发现所有overlay historgram和density的话，都是对同一数据，有没有对不同数据（sample是原始数据的subset）画图进行overlay啊，而且最后就算图像上能够显示出来的话，这两个图像的相似度也是相当主观的，有什么别的比较客观的因素去判定sample比较好的表达原始数据了呢？想和大家讨论一下

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2013-7-31 17:39:36

如果想保证样本分布和原数据分布尽量保持一致，可以采取局部随机抽样的方法，比如：你可以将500个原数据的分布切割成50份，然后在每一个区间内随机抽取一个数，共抽50个数构成你想要的样本。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2013-8-1 01:16:33

谢谢，这是一个很好的idea。我想除了客观上比较他们的mean啊，median啊，kernel啊在数值上比较接近的话，有没有什么直观的方法，从图像上比较呢？

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2013-8-1 15:58:09

不论是从统计量来看还是从图像上看，都是比较直观的判断。你可以进行N次抽样，然后从中选取一个与原数据误差较小的样本作为你的分析样本。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群