全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4805 2
2015-04-28
有一堆乱七八糟的数据,是一种偏态分布,大小范围是-5到5,想从中挑选出一组样本量最大的符合正态分布(均值为0,标准差为1.2)的数据,该怎么实现呢? 比如有原来有2000个数据,我想找到一组数据(比如1000个)恰好满足正态分布。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-4-29 09:48:58
离我的知道的好远。不过,可以采用穷举:先找容量为1999个数据测试一下,如果不符合正态分布,接着找1998个容量的继续试验。这个估计不会太慢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-29 16:52:25
小学生提个想法。。。
首先按某一规律切割定义域,例如均匀切割、按sigma倍数切割。切割的分配方式及数量需要在结果出来后调整。不妨假设按sigma倍数切割,那么由于要求结果符合N(0,1.2),某一切割的区间(例如0.2*sigma~0.3*sigma)的样本(最后结果的样本)占总体结果样本数量的比例应该是一定的。用实际这个区间中含有的样本数除以这个比例,可以算出这个区间的样本能够支持的最大总样本数。每个区间能够支持的最大总样本数的最小值就是能够取到的正态分布的最大样本数。

开始对定义域分割的越细,结果的形状越接近正态分布,但是能够支持的最大样本数也就越少。反之亦然。需要自己协调分割粗细与结果形状的重要性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群