1
分类变量可以采取多种方法进行编码转换,采取何种编码只是改变回归结果的解释形式,并不改变回归分析的实际结果。所以,到底采取哪种编码视具体情况而定。
一般而言,分类变量可以采用以下几种形式,
正交编码
事先比较
非正交编码
分类变量
虚拟编码
事后比较
效应编码
事先比较:根据可控制的试验研究取得的观测数据进行分析。
事后比较:根据来自抽样调查的观测数据进行分析。
2
因为社会科学研究多采用抽样调查数据进行分析,所以常用虚拟编码&效应编码。两者比较如下:
虚拟编码――必须先定一个参照类,各虚拟变量回归系数表示各类与参照类在均值上的差。
效应编码――常数项表示样本整体均值,回归系数反映的是各类均值与样本总均值的差,代表不同类别的效应。
编码规则:一个原分类变量如果包括k类,需设置k-1个变量。对于前k-1类变量,当案例属于该类别时,变量赋值为1;当案例不属于该类别时,变量赋值为0。所不同的是,若案例属于最后一类,
虚拟编码:将所有虚拟变量赋值为0
效应编码:将所有效应变量赋值为-1
回归方程:y=b0+b1*x1+b2*x2+b3*x3+b4*x4
形式相同,但是各参数意义不同,
虚拟编码:各回归系数表示各类与参照类在均值上的差
效应编码:常数项表示样本整体均值,各回归系数表示类均值与整体均值之差
如果事先不知道是否存在特别类,更不知道哪类是特别类,希望回归方程给出一个整体情况的描述,那么采用效应编码更合适。
3
总之,使用虚拟编码&效应编码是等价的。对于同一个样本,无论采用虚拟编码还是效应编码,对应模型的R2,F, F概率是完全相同的,并且各类估计值也是相同的。所不同的是由于参照类不同而产生的检验假设不同及其所导致的检验结果不同。
|