关于多重共线性问题在多元线性模型建模过程中需要加以考虑。理论上讲多重共线性分为完全共线性(perfect collinearity)和不完全共线性两种情况。
两个变量存在线性关系时,则为完全共线,除此之外,可能就是不完全共线。比如,存在截距项,同时又将所有的虚拟变量类别纳入模型时,会出现完全共线性问题,stata回归出来的结果会自动省掉其中一个变量的估计结果。现实中,更为常见的是不完全共线性。因为如果变量之间存在多重共线性,会导致模型估计偏差和变量估计结果的不可靠,特别是极容易导致核心解释变量的系数变得不再显著,更有甚至可能方向也变得与实际不相符合。
实操中,常常会通过计算方差膨胀因子(VIF)值来判定,VIF越大则说明多重共线性问题越严重,但有一个经验值为10,只要最大的VIF值不超过10(陈强,2014,第124页),或者计算容许度(方差膨胀因子的倒数),经验值是不能小于0.1,则可以认为不存在严重多重共线性问题。也有学者通过计算相关系数、偏相关系数来加以预判,0.5可能是一个重要的值,大于0.5则需要引起关注(古扎拉蒂,2013,第73页),毕竟回归元两两之间存在较高的相关度,虽不能直接断定存在共线性,但是至少可以作为存在多重共线性的一个信号。
关于通过计算相关系数预判并处置多重共线性问题,文献中有一个实例。金煜等(2006)研究中提到,“地区的人口数量也是反映其市场容量的重要因素,但是在我们的数据里,地区的人口份额与我们希望控制的公路基础设施建设和企业数量份额指标存在严重的共线性,这两个指标与人口份额的简单相关系数达到0.7024和0.7196。在基本模型基础上再加上人口份额这一指标,将使得企业份额变量变得非常不显著......因此,我们没有在实证结果中再加入人口份额指标“。
以上内容,仅供交流参考。
参考文献:
陈强. 高级计量经济学及Stata应用(第二版)[M]. 高等教育出版社, 2014.
达摩达尔・N・古扎拉蒂. 计量经济学原理与实践[M]. 中国人民大学出版社, 2013.
金煜,陈钊,陆铭.中国的地区工业集聚:经济地理、新经济地理与经济政策[J].经济研究,2006, (04):79-89.