遇到这样一个问题,D1,D2都是虚拟变量,X为一个连续变量。想要探究X在D1和D2取值同时为1的情况下对Y的影响。
首先设置方程Y=a1+a2*D1+a3*D1*X,回归的结果是a3显著
进一步设置回归方程Y=a1+a2*D1+a3*D1*X+a4*D1*X*D2+(a5*D2),
第一个问题是:括号中的a5*D2是否必须要添加。我理解D2的含义应该改是在D2、X同时取值为0 时对Y的影响,如果我通过经济含义的分析已经能确定当D1、X取值为0时D2不应该产生影响,那么单独的D2是不是可以不用加了?
第二个问题是,如果在后面一个回归方程中a3不显著了但a4显著,是不是可以说明X其实是在D1、D2同时取值为1时才对Y产生影响?
我最先想要设置D1、D2这样的虚拟变量是为了起到一个分组的作用,即X在特定样本中的作用,感觉这样会比直接分组有效。但是涉及虚拟变量的交叉项似乎又不像直观推断这样简单,看到有帖子说要对变量进行中心化调整等等,这个不太理解。如果仅仅是像我的上述分析是否合理?