请问拿到一份数据是先处理离群值还是先处理缺漏值？

9326

收藏 2015-10-13

离群值和缺漏值貌似要么删了要么都可以用均值代替，可是谁先谁后呢？
先用均值替补缺漏值的话，离群值会对均值有影响；先处理离群值的话，那些缺漏值太多的个体（面板里的城市、公司）似乎应该先删去，so，数据处理孰先孰后？
还有一个问题，用均值代替缺漏值合不合理？因为个体差异实在太大，比如几个大城市的数据肯定抬高了均值，这样的均值放在小城市的缺漏值里肯定不合适吧，这种情况怎么处理呢？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

xddlovejiao1314

2015-10-13 14:03:02

我仔细的想了想，如果我遇到和楼主一样的问题，会怎么处理。
既然是面板数据（有N有T），那么样本量是N*T，如果样本量比较大，我就先把缺漏值给处理了（删掉缺漏值样本），再处理离群值；如果样本量不大，则我先对缺漏值进行处理，然后再处理离群值。这时，在处理缺漏值时，我不用总体均值填充，因为就像楼主说的如果这样填充会受极端异常值影响，会把均值拉升。这时，我用样本中位数去填充缺漏值，或者是面板数据，我用缺漏个体已有的数据做个回归去拟合缺漏值。
总结而言，我的思路都是先处理缺漏值，再处理离群值。祝好运~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tkt718

2015-10-13 20:51:08

xddlovejiao1314 发表于 2015-10-13 14:03
我仔细的想了想，如果我遇到和楼主一样的问题，会怎么处理。
既然是面板数据（有N有T），那么样本量 ...

厉害！！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

夏目贵志

2015-10-14 23:29:29

处理缺失值的方法很讲究，每个研究都会不同。如果搞得不好很容易引起争议导致被退稿。一定要小心。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

luue

2015-10-15 14:44:05

xddlovejiao1314 发表于 2015-10-13 14:03
我仔细的想了想，如果我遇到和楼主一样的问题，会怎么处理。
既然是面板数据（有N有T），那么样本量 ...

谢谢您的回复！但是无论是用中位数还是用模型回归，异常值的存在还是会有影响吧~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xddlovejiao1314

2015-10-15 14:49:01

luue 发表于 2015-10-15 14:44
谢谢您的回复！但是无论是用中位数还是用模型回归，异常值的存在还是会有影响吧~

就是因为存在极端异常值，所以考虑用中位数，因为中位数的算法是先对数据排序，再取最中间的数。而均值受极端异常值的影响更大些。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群