全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
6122 3
2013-06-01
最近在用chns数据做分析,涉及到家庭收入数据,但是有些家庭收入多,支出也多,最后甚至净收入为零或负数,这样的家庭肯定不能算作是贫困的,那么如何筛选出异常值并剔除呢?

谢谢啦
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-6-1 15:10:43
分城市和农村了吗?这样的情况城市应该不多吧?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-6-1 16:10:12
luopulvye 发表于 2013-6-1 15:10
分城市和农村了吗?这样的情况城市应该不多吧?
城市有些是经商 支出多 但是 以什么标准来剔除异常值呢 谢谢啦
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-6-1 20:06:41
一、查找离群值。
1、adjacent


    adjacent lists adjacent values for a set of numeric variables in varlist. Calculate the upper and lower quartiles,  p75 and p25, and thus the interquartile range iqr = p75 - p25. Then the adjacent values are the highest value not greater than p75 + 3/2 iqr and the lowest value not less than p25 - 3/2 iqr.

例如

      sysuse auto, clear
      adjacent price, by(foreign)


2、egenmore

egen out2 = outside(price), factor(2)  //上限为P75+2倍的四分之一间距

二、离群值的处理

1、删除
  sysuse auto, clear
  adjacent price, by(foreign)
  drop if (price>8814&foreign==0) | (price>9735&foreign==1)

2、对数转换

一般对数转换可以明显得去掉一部分离群值

3、使用winsor命令

winsor price, gen(P_2) p(0.025) //这个为双边缩尾,p(0.025)为5%的观测值会发生变化
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群