全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
20907 19
2013-09-16
如题,为了消除异常点的影响,如何找到数据最10%和90%分位点,然后删掉大于90%和小于是10%的样本点,谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-9-16 20:16:08
对于outlier的影响,两种方法解决,一种是去掉数据两端极值,一种是对数据进行winsorization。现在后面的方法比较常用一些。

另外,我觉得你的10%和90%的设置有点过大,等于你去除了20%的数据。

你非要这么做的话,可以使用cut函数,生成10等分位,去掉两端就可以。另外推荐使用winsor,进行winsorization。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-9-16 20:41:48
xingxf 发表于 2013-9-16 20:16
对于outlier的影响,两种方法解决,一种是去掉数据两端极值,一种是对数据进行winsorization。现在后面的方 ...
高手你好,我是想做个稳健性测试,所以这样做,因为我有看到别人这么做了。winsor这个命令不行,因为它不是删除,也就是跑过之后,数据不会变少。其他,能给个具体的用法吗,多谢了!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-9-17 02:40:01
andybee 发表于 2013-9-16 20:41
高手你好,我是想做个稳健性测试,所以这样做,因为我有看到别人这么做了。winsor这个命令不行,因为它不 ...
我还真没见过什么paper去极值去掉20%的数据,winsor的好处就是不删除观察值。别说删除20%的数据,我觉得winsor 20%的数据都很不妥。

你非要去的话,我不是说了用cut函数。
举例来说你的variable名称为var
egen var_group=cut(var), group(10)
drop if var_group==0|var_group==9

或者使用下面的函数:
_pctile var,p(10,90)
return list
drop if var<r(r1)|var>r(r2)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-9-17 07:03:59
学习了,谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-9-17 08:58:15
xingxf 发表于 2013-9-17 02:40
我还真没见过什么paper去极值去掉20%的数据,winsor的好处就是不删除观察值。别说删除20%的数据,我觉得w ...
你好,高手,我现在把我看到的论文的描述转给你看,可能是我理解错了,请继续指教。
为检验异方差的影响,我们首先计算出各个企业劳动收入份额在10%和90%百分数,并将全部样本中低于10%分位数和高于90%分位数的样本点剔除,在此基础上,对剩余样本数据进行处理。——《政治关系、制度环境与劳动收入份额》。
我不清楚,这段话用了两个概念,一个是百分数,后面又讲分位数,让我很迷惑,同时,他这里又好像不是讲的删除劳动收入份额小于10%和大于90%样本,如果是这样的,干嘛废这么多话,直接这么说就行了,所以你看是我这样理解的,应该是找分位数点,也就是10%分位数点和90%分位数点,这样删除掉数据就不会有整个数据的20%,而可能只有百分之十以下,而你的这种方法会删除掉整个样本的20%,确实太多了,感谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群