y=a+bx+u (a,b为参数,u是干扰项)
定义f和m为虚拟二值变量(f=1如果是女性;m=1如果是男性;否则为零);
因为一个人在这里面定义的不是男性就是女性,所以永远都有m+f=1,而这个1恰恰是定量a的系数,也就是说,如果模型里面有了定量(不过原点),我们如果引入所有的虚拟二值变量(y=a+cm+df+bx+u, 这里面c, d是两个参数;为了突出问题的关键,我们假设x相关的参数对于性别没有变化。),就会出现(完美)共线问题(根本算不出来ols的参数估计值)。如果我们除去a或者(m或者f)里面的任何一个,就不会有这种现象(dummy trap)。
所以:1 如果模型过原点,我们可以把所有的 虚拟二值变量都加入模型里面.
2 如果模型不过原点,我们要除去一个虚拟二值变量
假设样本有两个数据,第一个男性第二个女性,也就是说m_1=1,m_2=0;f_1=0,f_2=1.
(1)如果a不为零,那么考虑这个模型
y_1=a+m_1c+f_1d+x_1b+u_1,
y_2=a+m_2c+f_2d+x_2b+u_2
,1,m,f,x是右手边的解释变量;这个模型不过原点而且引入两个虚拟变量。如果写成向量形式,
[y_1,y_2]'=a[1,1]'+c[1,0]'+d[0,1]'+b[x_1,x_2]'+[u_1,u_2]'
这样子[1,0]'+[0,1]'=[1,1]'
。。。