全部版块 我的主页
论坛 站务区 十一区 新手入门区
21487 12
2015-10-05
如题,用的多重插补,用的是regress模型,怎么插补的值出现了负数,计算了插补值的均值以后,还是有负数,不过君主的负数所占的比例很少,不到所插补值的5%。请问为什么会出现这种情况?出现了该如何处理?直接删除这些负数drop吗?家庭收入通常不会是负数啊。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-10-5 12:04:54
能够合理解释的方法,都能用的吧。 或者,还可以观察散点图,修改下插值的算法/方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-5 12:19:52
如果样本量比较大的话,对于收入缺失值样本最好舍弃不用。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-5 13:22:49
xianfang 发表于 2015-10-5 12:19
如果样本量比较大的话,对于收入缺失值样本最好舍弃不用。
样本量挺大的,不过收入的缺失值占11%,这么大的比例,能直接drop吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-5 23:26:07
biggerstones 发表于 2015-10-5 13:22
样本量挺大的,不过收入的缺失值占11%,这么大的比例,能直接drop吗?
如果你的样本量很大,例如达到1000个了,把10%的缺失值drop掉没有什么问题。但是在进行严谨的科学研究时,还是应当看看收入缺失的原因是否与有待研究的变量是否存在相关性,当然,这会让你的研究任务变得复杂一些。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-9-17 13:36:01
xianfang 发表于 2015-10-5 23:26
如果你的样本量很大,例如达到1000个了,把10%的缺失值drop掉没有什么问题。但是在进行严谨的科学研究时, ...
样本量即使到达1000个,也不能随便drop掉的啊,一般5%以上必须要插补了。
按照Landerman 等( 1997) 建议当缺失比例小于2%时, 用均数替代; 当缺失比例在2%—5%之间时, 用最大似然估计替代; 而当缺失比利大于5%时, 用多项回归替代(multiple imputation)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群