最近碰到一个sampling的问题,用的是SRS方法,直接从500个原始数据里面选出50个数据出来,我的初步构想就是比较sample(其实就是原始数据的一个subset)和原始数据的mean啊,median啊,kernel啊什么的。如果有图的话,可以比较一下historgram和density。但是我发现所有overlay historgram和density的话,都是对同一数据,有没有对不同数据(sample是原始数据的subset)画图进行overlay啊,而且最后就算图像上能够显示出来的话,这两个图像的相似度也是相当主观的,有什么别的比较客观的因素去判定sample比较好的表达原始数据了呢?想和大家讨论一下