llulla 发表于 2008-11-13 03:26 
对于一般线性回归,通常不主张用虚拟变量进行分析。因为要求资料是正态分布。但对于大样本,也可以进行分析。 ...
您对虚拟变量的理解有误。
虚拟变量个数的选择标准:
1.若定性因素具有m个相互排斥属性(或几个水平),当回归模型有截距项时,只能引入(m-1)个虚拟变量;2.当回归模型无截距项时,则可引入m个虚拟变量;否则,就会陷入“虚拟变量陷阱”。
按照您说的,如果模型中存在截距项,模型中应该引入两个虚拟变量而不是三个,否则会造成虚拟变量之间的多重共线(即通常所说的虚拟变量陷阱);可以引入是否是汉族(1表示是汉族,0表示不是汉族),是否是回族这两个虚拟变量(1表示是回族,0表示不是回族)。