在做分析中,收集上来的第一手数据一般都是要进行清理才能做统计分析的。我现在有一些变量的干净数据,我想用模拟的方法分析一下如果数据不干净的话对统计分析的影响。我首先从干净的数据中按比例抽取了一部分数据,把剩下的数据用模拟的方法做成未清理的数据,求问各位大神,这应该怎么做呀?我知道可能有以下五六种污染源,也大概知道每种污染源在污染中所占的比例呀。可以给一些建议么?
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝