全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
9200 9
2015-10-13
离群值和缺漏值貌似要么删了要么都可以用均值代替,可是谁先谁后呢?
先用均值替补缺漏值的话,离群值会对均值有影响;先处理离群值的话,那些缺漏值太多的个体(面板里的城市、公司)似乎应该先删去,so,数据处理孰先孰后?
还有一个问题,用均值代替缺漏值合不合理?因为个体差异实在太大,比如几个大城市的数据肯定抬高了均值,这样的均值放在小城市的缺漏值里肯定不合适吧,这种情况怎么处理呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-10-13 14:03:02
   我仔细的想了想,如果我遇到和楼主一样的问题,会怎么处理。
   既然是面板数据(有N有T),那么样本量是N*T,如果样本量比较大,我就先把缺漏值给处理了(删掉缺漏值样本),再处理离群值;如果样本量不大,则我先对缺漏值进行处理,然后再处理离群值。这时,在处理缺漏值时,我不用总体均值填充,因为就像楼主说的如果这样填充会受极端异常值影响,会把均值拉升。这时,我用样本中位数去填充缺漏值,或者是面板数据,我用缺漏个体已有的数据做个回归去拟合缺漏值。
   总结而言,我的思路都是先处理缺漏值,再处理离群值。祝好运~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-13 20:51:08
xddlovejiao1314 发表于 2015-10-13 14:03
我仔细的想了想,如果我遇到和楼主一样的问题,会怎么处理。
   既然是面板数据(有N有T),那么样本量 ...
厉害!!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-14 23:29:29
处理缺失值的方法很讲究,每个研究都会不同。如果搞得不好很容易引起争议导致被退稿。一定要小心。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-15 14:44:05
xddlovejiao1314 发表于 2015-10-13 14:03
我仔细的想了想,如果我遇到和楼主一样的问题,会怎么处理。
   既然是面板数据(有N有T),那么样本量 ...
谢谢您的回复!但是无论是用中位数还是用模型回归,异常值的存在还是会有影响吧~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-15 14:49:01
luue 发表于 2015-10-15 14:44
谢谢您的回复!但是无论是用中位数还是用模型回归,异常值的存在还是会有影响吧~
就是因为存在极端异常值,所以考虑用中位数,因为中位数的算法是先对数据排序,再取最中间的数。而均值受极端异常值的影响更大些。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群