离群值处理 - 经管之家

2352

收藏 2013-05-03

执行命令： tabstat i q1 c1 d1, s(min p25 p50 p75 max) format(%6.3f) c(s) 之后
您说“这个表格当时做了一个离群值的处理”，
请问究竟应该怎么判断是否应该进行离群值处理，应该怎么处理，请连老师告知详细步骤，非常感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

arlionn

2013-5-6 17:42:50

有关离群值的处理和原理，参见 Stata 初级视频，A2_data 第二讲中的介绍。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

alerry

2013-5-9 09:39:11

连老师能不能先和我透露一下具体的做法，论文班的课还没听完，而且刚向学校报销论文班的发票，不好意思这么快又要追加一个班呢，以后再报初级班，我保证当您的粉丝不动摇：）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

arlionn

2013-5-9 16:03:34

抱歉，我以为你已经是初级班的学员了，呵呵。
离群值通常采用缩尾处理（winsor），基本的思路是把大于第 99 百分位的观察值替换成 99 百分位；小于第 1 百分位的观察值替换成第 1 百分位上的数值。
例如，有 100 个人的身高数据，排位第 99 的那个人（张三）的身高是 1.87，排位第 100 的那个人（李四）的身高是 1.95。winsor 过程中，李四的身高数据被修改为 1.87。

你可以在 Google 上搜索一下 winsor，看看相关的介绍即可。

如下是 Stata 初级视频教程中的相关命令：

*-2.5.3.3 缩尾处理

   sysuse nlsw88.dta, clear
   histogram wage

   *-双边缩尾
      winsor wage, gen(wage_w2) p(0.025)

            *-图示
      twoway (histogram wage,color(green))    ///
            (histogram wage_w2,color(yellow)), ///
            legend(label(1 "wage") label(2 "wage_winsor2"))

   *-单边缩尾
      winsor wage, gen(wage_h) p(0.025) highonly
            *-图示
      twoway (histogram wage,color(green))    ///
            (histogram wage_h,color(yellow)),  ///
            legend(label(1 "wage") label(2 "wage_winsorH"))


   *-若无法下载 winsor 命令，可以采用如下处理方法：

            _pctile wage, percentile(1 99)
            replace wage = r(r1) if wage<r(r1)
            replace wage = r(r2) if wage>r(r2)

            *-亦可采用 clip() 函数 (参见第2.1.2.6小节，第385行)
               gen wage_w = clip(wage, r(r1), r(r2))
               sum wage wage_w, detail

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群