离群值处理为何很多文献用winsor的百分比标准而不是标准差标准

7304

收藏 2013-11-01

如题，我是公司财务领域的，发现很多文献都在用winsor处理，而且常用的都是1%和99%分位数的一刀切，但是在实践中，发现很多数据这种一刀切之后还是会存在离群值问题，为何不适用3个标准差或者6个标准差之类的方法？
另外，看连玉军老师的视屏中，他在离群值处理时，也是凭经验确定winsor百分比的标准（至少视屏里没细说到底为何取），是否有更精确的方式？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

zm6040

2013-11-1 09:47:50

另外，懒人求助，求stata标准差剔除离群值的方法，谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zm6040

2013-11-1 14:44:39

没人看？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jose.liupei

2013-11-1 20:09:35

个人觉得：
1. 用标准差的话不好统一标准，每组数据的标准差不一样，如何选择到底用3个标准差还是6个标准差来处理呢？但如果是1%和99%的方法处理的话，每组数据都可以做一个分布，统一选取1%和99%的截点，数据量大，winsor得就多；数据量少，winsor就少；
2. winsor百分比的标准的选取的话确实根据经验和实际情况而定，就像显著性为什么以10%，5%，1%为标准，而不选择7%，3%这样的为标准一样，都是前人的经验和习惯；还要考虑实际情况，如果数据量大或者离群值较多，可以多winsor一些，如果数据量小或者离群值较少，可以少winsor一些；

个人见解，仅供参考

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

夏目贵志

2013-11-2 01:28:22

jose.liupei 发表于 2013-11-1 20:09
个人觉得：
1. 用标准差的话不好统一标准，每组数据的标准差不一样，如何选择到底用3个标准差还是6个标准差 ...

agree

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zm6040

2013-11-3 11:02:27

zm6040 发表于 2013-11-1 14:44
没人看？

恩，说得不错

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

zm6040

2013-11-3 11:08:04

编辑了一下，见后面

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zm6040

2013-11-3 11:09:07

请往下看

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zm6040

2013-11-3 12:02:08

jose.liupei 发表于 2013-11-1 20:09
个人觉得：
1. 用标准差的话不好统一标准，每组数据的标准差不一样，如何选择到底用3个标准差还是6个标准差 ...

恩，说得不错。我再补充一下，做的很多是金融市场的数据，但是我看到的很多文章，例如会计研究上，很多文章都是1%和99%上一刀切（至少都是上千的大数据），但是有些数据，如ROE指标，明显是单向严重拖尾，1%根本解决不了问题，照样一刀切。而如果是用标准差处理，对于这种非对称的拖尾数据处理则要轻松和标准化的多。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zm6040

2014-4-26 11:29:13

自己来终结自己的问题，最近偶然找到了相关文献解释Chen S., Sun Z., Tang S., Wu D., 2011, "Government Intervention and Investment Efﬁciency: Evidence From China", Journal of Corporate Finance(17), pp.259~271.的附注11
“As suggested by Belsley et al. (1980), observations with Cook's D larger than 4/(n − k − 1) (where n and k is the sample size and number of regressors,
respectively) or the absolute value of studentized residuals larger than 2 can cause undue inﬂuences on the regression results. In ﬁtting Model (1) on the full sample or various sub-samples, about 4–5% of the observations are identiﬁed as such inﬂuential observations. We therefore winsorize the continuous variables atthe 2.5 top and bottom percentiles of their respective distributions. Alternatively, we drop inﬂuential observations identiﬁed by the above criteria, and theconclusions remain the same.”
Belsley, D., Kuh, E., Welsch, R., 1980. Regression Diagnostics: Identifying Inﬂuential Data and Sources of Collinearity. John Wiley & Sons, New Jersey.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

hiderm

2014-8-1 10:41:32

zm6040 发表于 2014-4-26 11:29
自己来终结自己的问题，最近偶然找到了相关文献解释Chen S., Sun Z., Tang S., Wu D., 2011, "Government I ...

Chen S., Sun Z., Tang S., Wu D., 2011, "Government Intervention and Investment Efﬁciency: Evidence From China", Journal of Corporate Finance(17), pp.259~271.的附注11
“As suggested by Belsley et al. (1980), observations with Cook's D larger than 4/(n − k − 1) (where n and k is the sample size and number of regressors,
respectively) or the absolute value of studentized residuals larger than 2 can cause undue inﬂuences on the regression results. In ﬁtting Model (1) on the full sample or various sub-samples, about 4–5% of the observations are identiﬁed as such inﬂuential observations. We therefore winsorize the continuous variables at the 2.5 top and bottom percentiles of their respective distributions. Alternatively, we drop inﬂuential observations identiﬁed by the above criteria, and the conclusions remain the same.”
Belsley, D., Kuh, E., Welsch, R., 1980. Regression Diagnostics: Identifying Inﬂuential Data and Sources of Collinearity. John Wiley & Sons, New Jersey.

《政_府干预与投资效率：来自中国的证据》一文的附注11：
正如Belsley等（1980）所建议的，Cook's D指标大于 4/(n − k − 1) 的观测案例（其中，n是样本容量，k是回归因子的个数），或者学生化残差（ studentized residuals ）大于 2 的观测案例，能够给回归结果造成过度的/不恰当的（undue）影响。在基于全部样本或各种不同的子样本来拟合模型（1）时，大约有 4%～5%的观测案例被确认为具有（这种不当的）影响力的观测案例。因此，我们对于连续型变量在各自分布的上、下 2.5% （即第2.5百分位数以下的obs 和第 97.5百分位数以上的obs）实施缩尾处理。作为另一种替代性方案，我们（也可以）依据上述标准删除有（不当的）影响力的观测案例，而（所得到的）的结论是相同的。

建议来自：Belsley、Kuh、Welsch（1980）：《模型回归诊断方法：识别有影响力的数据以及共线性的来源》

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群