全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
8683 5
2015-03-16

QQ截图20150316144716.png
   好多变量都存在很多的缺失值,对于这些缺失值应该怎么处理?在拿到一个原始的数据库的时候,按步骤应该是先进行数据库清洗,那什么是数据库清洗呢?应该做哪些工作?接触数据分析不久,菜鸟级别的,求指教。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-3-16 19:34:06
缺失值一般由几种原因造成:抽样误差,覆盖误差(没有抽到样本群体),无应答误差(受访者没有回答问题),调整误差(数据录入,调整权重等造成)。
分清了误差造成的原因在分别去处理。如果是没有回答或者回答有误,那么可以根据前后的题目更改过来;如果本身就缺失,可以进行插补。实在不行,就删掉,样本总量大概48000,删掉之后剩下40000多,其实也还好,样本量可以接受
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-3-16 21:53:50
现代统计有专门处理缺失值的方法,常见的有完全方法,借补和逆概率加权的方法等等,可以查看文献和专著
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-3-17 09:18:45
端正 发表于 2015-3-16 21:53
现代统计有专门处理缺失值的方法,常见的有完全方法,借补和逆概率加权的方法等等,可以查看文献和专著
谢谢~能推荐几篇好的文献或者书吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-3-17 09:19:53
Alfred_G 发表于 2015-3-16 19:34
缺失值一般由几种原因造成:抽样误差,覆盖误差(没有抽到样本群体),无应答误差(受访者没有回答问题), ...
噢,,,非常感谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-3-17 15:19:44
单名一个苗 发表于 2015-3-17 09:18
谢谢~能推荐几篇好的文献或者书吗
期刊库搜缺失数据,就有很多,英文文献可以参看主页 http://sitemaker.umich.edu/rlittle/missing_data
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群