比如三个虚拟变量A,B,C对Y的影响,我的目的是要比较哪个的影响的最大.现在有这样一种方法
1.分样本:即把含A和B为一个样本,含B和C,含A和C,分别在这三个样本中设置一个虚拟变量(如在含A和B的样本中,是A的时候为1否则为零,)从而两两比较哪个对Y的影响大.
2.全体样本.以C为基准,设置两个虚拟变量,即为A的时候为1否则为0;为B的时候为1否则为0.这样回归的话就能比较A和C哪个对Y的影响大,及其B和C哪个对Y的影响大,然后再以B或A基准,再回归一次,同样达到对这三者比较的效果.
请问哪一个好呢?第一种里面会不会有样本选择性偏差?这两个有什么区别和优劣呢?