1、理不辨不明,可能知识也是一样的,我们心平气和地讨论下这个问题。
2、就在你上传的这张的关于协变量的说明中,第三段作者举了一个实际例子(可能我英文不好,见谅),当决定将富裕程度当作成绩的控制变量时,他指出了为什么富裕程度能作为成绩的合格控制变量,【1】富裕地区班级规模小。【2】富裕地区有更多的外部学习机会。
这两点的本指是作者指出了富裕程度与学习成绩是相关的(多元回归的本质也是检验相关性),而且应该是正相关的,这个例子既然作者能拿出来,结合现实情况我们可以将其视为是事实,这并不为过吧。
3、实际应用中关于富裕程度,可能存在许多代理变量(图中下一段也有说明),到底选择哪一个呢?这段文字也给出了说明(虽然很含糊),加入了A之后,原先的关键变量x的系数和显著性发生明显变化,更倾向于选择加入A。此时,A必然是显著的(多元回归中,加入一个不显著的变量,根本不会明显地影响x的系数和显著性)。而且A必须是显著为正的,具体原因如2所示。我找了A,他找了B,还有人找了C,到底谁的比较准确呢,这一点不好判断,因为正如你所说协变量的系数是有偏的,这也是没人解释协变量意义的原因,但是ABC的系数却可以告诉我们谁是错的,只要系数不是显著为正的,那麽这个控制变量就是没有选择好。
4、说到底A正是因为与XY都相关,才决定了它能作为控制变量,相关性和显著性的联系自不用我多说吧。
5、当然我仔细想了下,也理解你的意思,你是在强调X的关键性,确实当选择了合适的控制变量后,X的系数确实是无偏的,控制变量的系数和显著性确实无需汇报,但当别人怀疑你的选择时,最好是把控制变量的系数和显著性show给他看,以证实控制变量的选取不存在太大问题。我想这一点,还是有较强的说服力的吧。