全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
1241 0
2020-12-06
四,异常数据

(一) 异常数据的介绍

1,对于异常数据,有下面三种情况:

[color=rgba(0, 0, 0, 0.75)]分类定义说明
异常点(outliers)对于正常的X来说,Y值偏离总体趋势Y极端值
高杠杆点(leverage points)不仅Y,X也偏离总体,要么很大要么很小X极端值
强影响点(influential observations)凡是能够影响到模型推断、斜率等回归分析中各阶段的影响点其他极端的情况

2,异常点示例

下图,红色的点,明显脱离总体趋势,所以可以被认为是异常点,但是因为x值并不异常,所以不是高杠杆点。

但是,红色的点是强影响点嘛?我们对比包含和剔除异常点后的回归线,以及回归模型的结果进行判断。

包含红色样本点

不包含红色样本点

由于,仅拟合优度提升了估计量的标准差变好了,但是斜率参数变化不大,且均显著;所以,该样本点不是强影响点。

3,高杠杆点示例

下图中的红色样本点,虽然,y保持了总体的趋势,但是x是个异常值,所以是个高杠杆点。


同理我们依然可以通过对比有无高杠杆点的回归线,以及回归模型的结果进行判断。

回归方程结果-略
可以判断,该点不是强影响点。

4,强影响点示例

同理,我们可以推断,下图中的红点,不仅仅是异常点、高杠杆点,而且还是强影响点,因为使得斜率发生了较大的偏离,拟合优度以及显著性推断的值也发生了较大的变化。

(二) 异常数据的诊断

1,x极端值的判断-高杠杆点

通过线性代数的角度求解线性回归模型的过程:
Y = X β + μ Y=Xβ+μY=Xβ+μ
β = ( X ′ X ) − 1 X ′ Y β=(X'X)^{-1}X'Yβ=(X′X)−1X′Y

Y ^ = X β \hat Y=XβY^=Xβ
Y ^ = X ( X ′ X ) − 1 X ′ Y \hat Y=X(X'X)^{-1}X'YY^=X(X′X)−1X′Y

令 H = X ( X ′ X ) − 1 X ′ H=X(X'X)^{-1}X'H=X(X′X)−1X′,则
Y ^ = H Y \hat Y=HYY^=HY

改写成方程的形式:
y ^ i = h i 1 y 1 + h i 2 y 2 + . . . + h i n y n \hat y_i = h_{i1}y_1 +h_{i2}y_2+...+h_{in}y_ny^​i​=hi1​y1​+hi2​y2​+...+hin​yn​ , for i = 1,…,n
杠杆参数y ^ i \hat y_iy^​i​

一般当h i j > 3 ( ∑ h i j n ) = 3 ( p n ) h_{ij} > 3 (\frac{\sum h_{ij}}{n})=3 (\frac{p}{n})hij​>3(n∑hij​​)=3(np​)时,认为可能出现高杠杆点的情况。
其中,p表示参数的个数,包括截距项。

2,y极端值的判断-异常值

通过学生化的残差值,进行判断

通过残差值e i = y i − y ^ i e_i=y_i-\hat{y}_iei​=yi​−y^​i​
我们做如下变换
r i = e i s ( e i ) = e i M S E ( 1 − h i i ) r_{i}=\frac{e_{i}}{s(e_{i})}=\frac{e_{i}}{\sqrt{MSE(1-h_{ii})}}ri​=s(ei​)ei​​=MSE(1−hii​)​ei​​

r i r_{i}ri​超过3的被认为是异常点

待改进:当异常点对模型产生了很大的影响,甚至将回归曲线“拉向自己”的时候,则上述这种“internally studentized residual”内部的学生化误差就起不到判断的作用了。

我们建立外部的学生化误差“externally studentized residuals”:

定义
d i = y i − y ^ ( i ) d_i=y_i-\hat{y}_{(i)}di​=yi​−y^​(i)​
其中,
y i y_iyi​对应的依旧是第i个样本观测值

y ^ ( i ) \hat{y}_{(i)}y^​(i)​则代表,剔除第i个观测点后建立的回归模型,再代入第i个点解释变量值得到的预测结果

举例

去除第四个点的(i=4)回归模型,得到的第四个点(x 4 = 10 , y = 2.1 x_4=10,y=2.1x4​=10,y=2.1)的预测值,如下
y ^ ( 4 ) = 0.6 + 1.55 x = 0.6 + 1.55 ∗ 10 = 16.1 \hat{y}_{(4)}=0.6+1.55x=0.6+1.55*10=16.1y^​(4)​=0.6+1.55x=0.6+1.55∗10=16.1

则 d 4 = y 4 − y ^ ( 4 ) = 2.1 − 16.1 = − 14 d_4=y_4-\hat{y}_{(4)}=2.1-16.1=-14d4​=y4​−y^​(4)​=2.1−16.1=−14

外部的学生化误差记为:

t i = d i s ( d i ) = e i M S E ( i ) ( 1 − h i i ) t_i=\frac{d_i}{s(d_i)}=\frac{e_i}{\sqrt{MSE_{(i)}(1-h_{ii})}}ti​=s(di​)di​​=MSE(i)​(1−hii​)​ei​​

结果依旧是与3相比较,t i > 3 t_i>3ti​>3的认为是异常点。

3,强影响点的判断

定义Cook’s distance

D i = ( y i − y ^ i ) 2 p × M S E [ h i i ( 1 − h i i ) 2 ] D_i=\frac{(y_i-\hat{y}_i)^2}{p \times MSE}\left[ \frac{h_{ii}}{(1-h_{ii})^2}\right]Di​=p×MSE(yi​−y^​i​)2​[(1−hii​)2hii​​]

其中,
y i y_iyi​对应的依旧是第i个样本观测值

y ^ ( i ) \hat{y}_{(i)}y^​(i)​则代表,剔除第i个观测点后建立的回归模型,再代入第i个点解释变量值得到的预测结果

p 表示参数的个数,包括截距项

判断:
当D i D_iDi​值大于0.5,则仅仅有可能是
当D i D_iDi​值大于1,则非常有可能是
当D i D_iDi​与其他值比非常抢眼,则基本可以确定就是

(三) 异常数据的处理

如果是录入错误或收集错误,则改正
如果其他原因,基本都是直接删除


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群