peyzf 发表于 2012-12-1 15:54 
谢谢。
还没有涉及到交乘项共线性的处理?
呵呵,你的提问也没有问交叉项的共线性啊,怎么让斑竹回答。
交叉项共线性的存在,多半由于交叉项的变量原因。see case below(暂不考虑内生性问题)
y=a0+a1*x+a2*x*D1+a3*D1+a4*x*D2+a5*D2+e
假设y是去医院次数
x是病人的家庭状况,如小区医疗设施、受教育程度、是否退休人员、是否加入健身俱乐部等等
D1为dummy,即穷人为1,富人为0(不涉及歧视,简单分析)
D2是dummy,单身/丧偶/离异为1,夫妻健全为0
假设观察值的富人组集中住在几个富人小区。
很显然,如果不控制穷人富人问题,X的波动会比较大,回归结果基本上不存在共线性;
但是考虑加入D1,D2,对于穷人组来讲,这个问题不大,x依然波动很大
但是对于富人来讲,这个就有意思了:
虽然pool的时候,富人组的x值基本没啥问题,但是如果加入两个dummy,
夫妻健全的富人的X值,可能是高度雷同的:比如都会住在有服务夫妻两人设施的高档小区内,住的户型可能都是大户型;去的医院可能是男科、妇科都有的。
这个时候,交叉项的共线性就比较明显,而且试图控制的因素越多,共线性就越明显。前几天,跟刚进我们系的一个年轻AP讨论过这个问题,他的意见是:尽量不要drop有共线性的值,而是试图进一步分解交叉项里面的x,比如,x里面有个变量是是否接受定期医疗检查,那么就进一步分:每年接受1次检查组、每季接受1次检查组、每月接受一次检查组,这样,增加x的变异来消除共线性问题。