交互效应,顾名思义,就是存在交互影响的两个变量,具体的统计语言是使用两变量的乘积项表示。例如研究女孩是否会嫁给男孩的意愿强弱时,引入了“经典”的两个变量爱和钱,假如女孩爱他并愿意嫁他——不过有个条件,当他有钱时,这个爱就昏天暗地,但当钱很少时,爱就有折扣,没钱就,那么可以说,爱和钱的产生了交互,并同时对是否嫁的意愿产生了影响。
假设使用这样的数据建模。
方程1
假设X1表示爱、X2表示(他的)钱, Y表示嫁的意愿强弱。
这个模型显然需要引入交互项,否则无法解释现实意义,如下:
方程2
那么关于方程1两个自变量系数的解释,大家应该是如数家珍了——自变量每改变一个单位,因变量的变化量,并可以将每个自变量视为主效应。但是方程2的解释却完全不同。
不知大家是否发现,同一个模型引入交互项和不引入交互项,自变量的系数的变化很大,在普通的统计模型中我们可以归结为协变量的影响(控制变量),而在交互效应模型中确不能这样归因。
首先看交互项的系数,它表示的意思是X2每变化一个单位,Y对X1的回归斜率的变化程度(反之亦然,如果需要区分谁是自变量,会涉及调节变量的概念)。也就是说女孩由爱而嫁的意愿强弱是随着钱的多少而变化的(正和负表示相反的影响)。另外,需要注意的问题是,这时的X1、X2前的系数表示的意义就变化了,并不表示主效应,例如X1前的系数表示,当X2取0时,X1对Y影响的估计,经常,大家还会遇到自变量取值为0时没有什么具体的意义,例如X1前的系数表示他没有一分钱的时候,由爱就嫁的意愿,当然“没有一分钱”实在很难精确对应现实中的意义。那么解决的办法是,对X2原有的取值进行中心化(减掉均值),0就有了意义,也可以与原有的值对应起来解释。
调节:https://bbs.pinggu.org/thread-2182431-1-1.html