全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 统计软件培训班VIP答疑区
4156 2
2012-08-21
连老师您好。有关回归分析中离群值的问题,我想请教:1)通常怎样判断存在离群值?或是何种情况下到达需要处理的程度?
2)对离群值可采用简单删去的方法吗?或更经常的是做些相应的修正?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-8-21 16:24:58
这些内容在 Stata 初级视频 A2_data 部分有详细讲解,截取一部分如下:

*_____________________
*-2.5.3 离群值的处理

    *-2.5.3.1 删除
        
      sysuse auto, clear
      adjacent price, by(foreign)
      drop if (price>8814&foreign==0) | (price>9735&foreign==1)
         
          *-or            // 需要提前安装-egenmore-相关命令
          sysuse auto, clear
          egen outby = outside(price), by(foreign) factor(2)
          drop if outby != .
         
  
    *-2.5.3.2 对数转换
        
      sysuse nlsw88, clear
      gen ln_wage = ln(wage)
         
      twoway (histogram wage,color(green))      ///
             (histogram ln_wage,color(yellow))
                        
      sum wage ln_wage, d
         
      graph box wage
      graph box ln_wage


    *-2.5.3.3 缩尾处理
        
      sysuse nlsw88.dta, clear
      histogram wage
         
      *-双边缩尾
        winsor wage, gen(wage_w2) p(0.025)
               
                *-图示
        twoway (histogram wage,color(green))      ///
               (histogram wage_w2,color(yellow)), ///
               legend(label(1 "wage") label(2 "wage_winsor2"))
                           
      *-单边缩尾
        winsor wage, gen(wage_h) p(0.025) highonly
                *-图示
        twoway (histogram wage,color(green))      ///
               (histogram wage_h,color(yellow)),  ///
               legend(label(1 "wage") label(2 "wage_winsorH"))
               
               
      *-若无法下载 winsor 命令,可以采用如下处理方法:
            
                _pctile wage, percentile(1 99)
                replace wage = r(r1) if wage<r(r1)
                replace wage = r(r2) if wage>r(r2)
               
                *-亦可采用 clip() 函数 (参见第2.1.2.6小节,第385行)
                 gen wage_w = clip(wage, r(r1), r(r2))
                 sum wage wage_w, detail

        
        
    *-2.5.3.4 截尾处理
        
      sysuse nlsw88, clear
      _pctile wage, percentile(1 99)
      return list
      drop if wage<r(r1)  // 删除小于第1百分位的样本
      drop if wage>r(r2)  // 删除大于第99百分位的样本
      
      *-说明:
      * (1) 可以先绘制直方图,进而根据分布情况选择左截尾、
          *     右截尾还是双边截尾
      * (2) 相比于ln()处理和winsor处理,该处理会损失样本
      *     但对于大样本而言,该方法比较“干净”

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-8-29 01:17:09
谢谢连老师的耐心:)我看了视频,非常清晰。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群