sunkai_bick 发表于 2013-10-13 09:44 
有个问题一直比较困扰: 假如按照学历水平分2组进行回归,两个回归模型中的变量一样,那么回归结果的系数 ...
不可以直接比较,我个人理解,即便两个回归方程完全相同,但由于所用的数据不同,数据容量不同,自由度不同,估计系数标准误不同,是不可以直接对同一变量的估计系数数值进行大小比较,这样比较不具有统计学意义。事实上,进行估计系数是有十分严格的条件的,例如即便对同一回归方程不同变量进行估计系数比较,也是不可以直接比较估计系数数值大小,因为可能不同变量的单位存在差别,即便将估计系数标准化后也不可以大小比较,因为我们所比较的只是点估计,估计系数标准误还是存在差别,所以要用t检验。
解决对同一样本分组回归的估计系数数值比较比较合理的方法有两种:
1、利用虚拟变量及其与主要解释变量的交互项,例如可以创建一个虚拟变量x表示不同教育水平人群,x=1,表示高教育水平人群,x=0表示低教育水平人群
y=a+b*收入+c*(收入*x)+d*x,这样有:
高教育水平:y=(a+d)+(b+c)*收入
低教育水平:y=a+b*收入
因此,可以看c这个估计系数是否显著,如果显著,那么说明这两类人群的收入影响系数确实存在差别。
利用虚拟变量进行分析的好处在于,简单易懂,好用。但如果回归方程所包含的变量数量很多,那么就比较麻烦,例如:
y=a+b*收入+c*(收入*x)+d*x+e*x1
上述方程设定实际上限定了x1这个变量在不同教育人群中的回归系数e是相同的,而这又可能与理论与现实相违背,导致收入系数估计偏差,解决方法是再加上一个x和x1的交互项,但如果方程变量数量很多,而且人群分类不再是两分类,而是多分类,那么你的估计方程就会很长,很麻烦。
2、利用hausman检验对不同估计方程的估计系数进行卡方检验。这个检验在原理上与对内生检验的原理相似。在内生检验中,我们常常利用卡方检验对一个ols估计结果与一个两阶段回归的估计结果进行比较,如果两者的估计系数存在系统差别,那么我们就可以判定存在内生问题。利用相同的原理,我们就可以对两个分组回归的估计结果进行卡方检验,这个方法比之前虚拟变量方法在统计推断上更加复杂,但也克服了之前虚拟变量“惧怕”变量过多的缺点,个人对这种方法比较偏爱。