介绍虚拟变量在regression的运用
Dummy variable (dummy 系「傻仔」 , 所以dummy variable 直译就是「傻仔变数」。当然, 统计学家不会接受。它的 official translation 为「虚拟变量」), 系将 categorical variable 放进 regression 的一种 coding system。例如, 研究近视问题时我们可能认为性别也会有影响, 所以在 setup regression model 的时候就要把男女分别处理。当然, 最简单的做法是把 dataset 一分为二, 男还男的, 女还女的。不过此做法又有另一个问题, 就是分薄了 sample, 使 estimation 的 efficiency 减低。这时, dummy 就可以派上用场以分别男女。
举例说, 我们拟一个 dummy。如果那个 observation 是男的, 则dummy=1; 是女的, 则 dummy=0。为了方便别人了解, 最好的做法是给 dummy 一个好名字: MALE。一看 MALE 的名字就知道, MALE = 1 是男, MALE = 0 是女。如果取名为 GENDER, 则看完也不会知 GENDER = 1是男或女。
.....
全文请阅
http://ecfred.blogspot.com/2011/04/dummy-in-regression-for-dummies.html