一般设置虚拟变量时要比虚拟选项少一个,否则就会出现与常数项共线的问题。
比如在设计性别作为虚拟变量时,选项有两个:男、女,但只设计一个虚拟变量(0/1),如果设计两个变量就会导致共线问题,因为其矩阵为:
1 1 0
1 0 1
某个样本要么在是否为男性变量上为1,要么在是否为女变量上为1。
再比如,设计我国34个工业行业作为虚拟变量时,仅需设置33个虚拟变量,当所有变量均为0时,表示样本处于最后一个行业。
从经济意义上讲,比如在一个分析性别工资差异的问题中,设置虚拟变量0-女性,1-男性,该变量回归系数表示男性工资在控制其他变量的条件下,比女性工资平均高...