协整及误差修正模型专题
宋子轩
一.预备知识
(一) 伪回归(虚假回归)
伪回归是指变量之间本来不存在有意义的统计关系,但是回归的结果却得出存在有意义的统计关系的错误结论。经常出现伪回归建模的现象是经济时间序列数据建模。
伪回归产生的原因:
经典的时间序列分析和回归分析有很多前提假定,如对序列的平稳性、正态性要求等,如果直接将统计年鉴上的经济时间序列数据建模分析,实质上是忽略了这些假定。
以经典回归分析为例,应用回归分析的前提是高斯-马尔科夫定理(假定),主要有:
1. 解释变量(X)非随机,无测量误差
2. 模型设定无偏误,无设定误差
3. 对模型随机扰动项的假定:零均值、同方差、无自相关、正态性
只有在上述假定都成立的条件下,对回归系数的t检验和对回归模型的F检验才有较高的可靠度和可信度。
20世纪70年代,Granger、Newbold研究发现,造成伪回归的根本原因在于时间序列数据的非平稳性。他们用传统回归方法对彼此不相关联的非平稳变量进行回归,t检验和F检验的值往往倾向于显著,从而得出“变量相依”的“伪回归结果”。
因此,在利用回归方法讨论经济变量之间的相依关系之前,必须对变量的平稳性做检验。
识别伪回归的方法——协整检验
以下面的AR(1)模型为例子:
假设一维时间序列 的均值为零,我们可以对该序列建立一阶自回归模型:
(1)
其中 是独立同分布的随机误差序列。如果 是一个单整过程,那么 的最小二乘估计将接近于1。在这种情况下,关于 显著性的t检验统计量可能具有较大的值,模型的拟合优度也可能接近于1,但这些并不能说明式(1)的关系是显著的。
在模型(1)中,参数 的真值为1,即序列 是一个具有单位根的非平稳过程,在这种情况下,基于最小二乘理论的检验统计量的渐近分布有了变化,此时的t统计量不再服从标准的t-分布,所以即使t统计量具有较大的值,也不能说明模型(1)的回归关系是显著的,这就会产生“伪回归”(Spurious regression)问题。
(二) 随机过程
随机变量的关于时间的动态发展过程
例如一个国家的GDP看以看做一个随机变量,如果要考察GDP随时间的变化情况,那么就是一个随机过程,记作: .
离散型的随机过程,可以理解成时间序列
(三) 时间序列的平稳性
序列的平稳性是指,随机过程的统计规律/数字特征不会随着时间的推移而发生变化。直观上看,平稳时间序列的是一条在均值附近上下波动的曲线。
例如:Eviews生成白噪声序列(white noise series):
有两种意义上的平稳性:严平稳和宽平稳。
严平稳:是指随机过程的分布随着时间的推移保持不变
宽平稳:是指随机过程的数字特征随着时间的推移保持不变
通常所说的平稳性是指宽平稳。
1. 均值和方差为常数
2. 自协方差与时间t无关,只和时间间隔有关
(四) 时间序列的平稳性检验——单位根检验(Unit roots test)
平稳性检验的方法有两种:
传统方法:以自相关函数(Auto-correlation:AC)为代表
现代方法:以单位根检验为代表
下面主要介绍单位根检验
一般来讲,由于经济系统的惯性,经济时间序列之间往往存在着前后相依的关系,这是时间序列预测的基础。刻画这种相依关系最简单的模型就是AR(1):
(2)
P阶自回归模型的一般形式:
(3)
以AR(1)模型为例介绍单位根过程:
当 时,序列 为平稳过程,即Box-Jenkins过程
当 时,序列 为非平稳过程,即随机游走过程(random walk process)
随机游走过程:
(4)
其中, ,随机游走过程的方差:
(5)
由此可见当 ,随机游走是非平稳的。
如果序列是一个随机游走过程,那么序列就是一个单位根过程 。
单位根检验的统计量
常见的是DF检验和 ADF检验
DF(Dickey-Fuller):对于式(2)的AR(1)模型,一阶滞后项系数的OLS估计为:
(6)
,
检验统计量:
(7)
DF检验的缺陷是当随机扰动项存在序列自相关时,直接使用DF检验会出现偏误。
ADF(Augmented Dickey-Fuller)检验:克服了DF检验的缺陷。所以常用的是ADF检验。
(五) 单整(Integrated process)序列
一般的,如果序列 为非平稳过程,但是经过d次差分之后的序列为平稳序列,并且d-1次差分后非平稳,那么称该序列d阶单整,也称单整的阶数,记作: .
特别的,如果序列 平稳时,单整阶数为0, 。
二.协整(Co-integeration)
协整:是指多个非平稳序列的某种线性组合是平稳的,表明某些非平稳序列之间存在着某种长期均衡关系。
例如:收入和消费、工资和价格、**支出和税收、出口和进口等。
(一) 协整的严格定义:
设有 序列 ,用 ,如果:
1. 内的每个分向量都是d阶单整的,即 ;
2.存在非零向量 ,使得 , ;
那么称向量 内各个分向量之间是d,b阶协整的,记作: ,向量 称为协整向量。
Note:
1.经济计量分析中常见的是CI(1,1)阶协整。
2.对于两个变量来说,只有同阶单整序列才可能存在协整关系
3.使得线性组合的单整阶数降低(小于各分向量的单整阶数)
(二) 两变量的协整检验
主要介绍基于回归残差的E-G(Engle-Granger,1987)两步法检验
第一步:
若 , ,则 均是平稳序列,OLS估计方程(协整方程)
(8)
得到残差序列:
(9)
第二步:
检验残差 的平稳性:若 是平稳的,那么 , 就是协整的;若 是非平稳的,那么 , 就不是协整的。
即对协整方程得到的残差序列是否具有平稳性的检验,就是 , 是否存在协整关系的检验,残差序列的平稳性检验就是对其进行单位根检验。
Note:
协整检验的前提各个序列都是非平稳的。
三.误差修正模型(Error correlation model,ECM)
(一) 基本思路
若变量间存在着协整关系,即表明着这些变量之间存在着长期稳定的均衡关系,而这种长期稳定的均衡关系是在短期动态过程的不断调整(误差修正机制)中维持的。任何一组相互协整的时间序列变量都存在着误差修正机制,反映短期调整行为。
(二) 建立ECM的步骤
建立误差修正模型一般采用两步,分别建立区分数据长期特征和短期特征的计量经济模型。
第一步:建立长期关系模型
即建立协整回归,并对残差序列进行协整检验,如果协整关系成立即说明长期关系模型中变量的选择是合理的,回归系数具有经济意义。
第二步:建立短期动态关系
即建立误差修正方程,将长期关系模型中的变量以一阶差分的形式重新构造,并将长期模型中的残差项(滞后一期)作为解释变量引入模型中。
Note:
作为解释变量引入的长期关系模型中的残差,代表着在取得长期均衡的过程中各时点出现偏误的程度,使得第二步可以对这种偏误的短期调整或者误差修正机制加以估计。
四.案例分析
数据:全国居民的总消费支出(CS,元)、居民的可支配收入(DI,元)、以1978年为基期的CPI
时间区间:1978—2006
表1. 实验数据
obs DI CS CPI obs DI CS CPI
1978 2512.94 1759.1 1 1993 30984.95 16412.1 2.6696
1979 2916.2 2011.5 1.02 1994 42979.8 21844.2 3.313
1980 3385.67 2331.2 1.081 1995 54551.5 28369.7 3.8789
1981 3715.8 2627.9 1.107 1996 63768.61 33955.9 4.2
1982 4111.1 2902.9 1.128 1997 70321.86 36921.5 4.318
1983 4595.7 3231.1 1.145 1998 74526.35 39229.3 4.2836
1984 5565.2 3742 1.177 1999 78233.02 41920.4 4.2235
1985 7011.18 4687.4 1.281 2000 85819.37 45854.6 4.24011
1986 8153.2 5302.1 1.363 2001 93269.16 49213.2 4.269573
1987 9859.2 6126.1 1.464 2002 101429.1 52571.3 4.234986
1988 12685.6 7868.1 1.7396 2003 114107.5 56834.4 4.286226
1989 14327.4 8812.6 2.0505 2004 133481.9 63833.5 4.400582
1990 15730.7 9450.9 2.115 2005 152218.6 71217.5 4.311639
1991 18632.02 10730.6 2.188 2006 172110.8 80120.5 4.298932
1992 23440.13 13000.1 2.3276
用CPI调整名义量CS、DI,得到实际量ACS、ADI,然后取对数得到LACS,LADI
检验LACS的平稳性:
Null Hypothesis: LNACS has a unit root
Exogenous: Constant
Lag Length: 0 (Automatic based on SIC, MAXLAG=6)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -0.171252 0.9314
Test critical values: 1% level -3.689194
5% level -2.971853
10% level -2.625121
*MacKinnon (1996) one-sided p-values.
Null Hypothesis: D(LNACS) has a unit root
Exogenous: Constant
Lag Length: 0 (Automatic based on SIC, MAXLAG=6)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -3.535419 0.0147
Test critical values: 1% level -3.699871
5% level -2.976263
10% level -2.627420
*MacKinnon (1996) one-sided p-values.
检验的结果表明:LACS~I(1)
对LADI的平稳性检验:
Null Hypothesis: LADI has a unit root
Exogenous: Constant
Lag Length: 2 (Automatic based on SIC, MAXLAG=6)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -0.071486 0.9428
Test critical values: 1% level -3.711457
5% level -2.981038
10% level -2.629906
*MacKinnon (1996) one-sided p-values.
Null Hypothesis: D(LADI) has a unit root
Exogenous: Constant
Lag Length: 1 (Automatic based on SIC, MAXLAG=6)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -3.825501 0.0077
Test critical values: 1% level -3.711457
5% level -2.981038
10% level -2.629906
*MacKinnon (1996) one-sided p-values.
检验结果表明:
LADI~I(1)
构造协整回归:
Dependent Variable: LACS
Method: Least Squares
Date: 01/12/11 Time: 15:31
Sample: 1978 2006
Included observations: 29
Variable Coefficient Std. Error t-Statistic Prob.
C 0.972065 0.074522 13.04405 0.0000
LADI 0.834927 0.008069 103.4729 0.0000
R-squared 0.997485 Mean dependent var 8.654261
Adjusted R-squared 0.997391 S.D. dependent var 0.678268
S.E. of regression 0.034642 Akaike info criterion -3.821011
Sum squared resid 0.032402 Schwarz criterion -3.726715
Log likelihood 57.40466 F-statistic 10706.65
Durbin-Watson stat 0.321124 Prob(F-statistic) 0.000000
对协整回归的残差序列平稳性检验
Null Hypothesis: E has a unit root
Exogenous: None
Lag Length: 1 (Automatic based on SIC, MAXLAG=6)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -2.336333 0.0214
Test critical values: 1% level -2.653401
5% level -1.953858
10% level -1.609571
*MacKinnon (1996) one-sided p-values.
检验结果表明,残差序列为平稳序列,协整回归的系数具有经济意义
提取协整回归的残差
Dependent Variable: D(LACS)
Method: Least Squares
Date: 01/12/11 Time: 15:33
Sample (adjusted): 1979 2006
Included observations: 28 after adjustments
Variable Coefficient Std. Error t-Statistic Prob.
C 0.013133 0.009088 1.445077 0.1609
D(LADI) 0.718951 0.084793 8.478896 0.0000
ECM -0.184866 0.103662 -1.783356 0.0867
R-squared 0.753787 Mean dependent var 0.084299
Adjusted R-squared 0.734090 S.D. dependent var 0.036058
S.E. of regression 0.018594 Akaike info criterion -5.030995
Sum squared resid 0.008643 Schwarz criterion -4.888259
Log likelihood 73.43394 F-statistic 38.26902
Durbin-Watson stat 1.372533 Prob(F-statistic) 0.000000
D(LACS) = 0.01313322819 + 0.7189514895*D(LADI) - 0.1848663302*ECM