全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2419 15
2014-01-03
在做分析中,收集上来的第一手数据一般都是要进行清理才能做统计分析的。我现在有一些变量的干净数据,我想用模拟的方法分析一下如果数据不干净的话对统计分析的影响。我首先从干净的数据中按比例抽取了一部分数据,把剩下的数据用模拟的方法做成dirty数据,求问各位大神,这应该怎么做呀?我知道可能有五六种污染源,也知道每种污染源大概在污染中所占的比例呀。大神们可以给一些建议么?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-1-3 09:08:41
您的dirty没有准确的定义,比如是误差项不符合模型设定,又或是有一些异常值之类的,一般而言这类模拟不会太难。比如用样本均值的时候故意掺进去几个很大的数,就会使均值变得很大,而用中位数估计则较稳健
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-1-3 10:01:56
我的dirty 要包括异常值,数据点缺失,等等,还有这些dirty data的在剩下数据中的比例是异常值大约占10%,数据点缺失占剩下数据的38%,这样可以模拟么?您能说的具体一点么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-1-6 13:20:55
凸集分离定理 发表于 2014-1-3 09:08
您的dirty没有准确的定义,比如是误差项不符合模型设定,又或是有一些异常值之类的,一般而言这类模拟不会太 ...
我的dirty 要包括异常值,数据点缺失,等等,还有这些dirty data的在剩下数据中的比例是异常值大约占10%,数据点缺失占剩下数据的38%,这样可以模拟么?您能说的具体一点么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-1-6 22:39:25
小宝爱波1314 发表于 2014-1-6 13:20
我的dirty 要包括异常值,数据点缺失,等等,还有这些dirty data的在剩下数据中的比例是异常值大约占10 ...
R 几行命令就可以写出来 如果不是很重要的话 您把数据发到论坛上 再付一个word说明,我帮您看一下
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-1-7 08:35:57
凸集分离定理 发表于 2014-1-6 22:39
R 几行命令就可以写出来 如果不是很重要的话 您把数据发到论坛上 再付一个word说明,我帮您看一下
好的,过几天给您数据吧。现在数据还没分离出来。可以先告诉我您的理念么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群