在学习SPSS 多元线性回归操作实例中,案例用到了逐步(步进)回归法,
这个方法是 首先计算各个自变量对因变量的影响大小(通过计算相关系数矩阵),选取对因变量影响最大的变量进入到模型里,然后重复此过程。注意,此时新变量的引入是否会使先前变量丧失统计意义,如果会,这个变量就要剔除并重新计算剩余变量对因变量的影响大小,直到方程中没有可剔除的变量,方程外没有可引入的变量可以引入为止。
根据皮尔逊相关系数矩阵:
在上面的相关系数矩阵里,y(平均寿命)为被解释变量,x1(人均GDP)、x2(成人识字率)、x3(一岁儿童疫苗接种率)为自变量,相关系数最高的为x2,所以先把x2纳入方程,建立一元线性回归方程;然后
在此基础上引入了x1建立方程,最后再此基础上引入x3。
请问为先引入x1 后引入x3,而不是先引入x3后引入x1呢?毕竟x3的相关系数大于x1。
还是说在引入x2后,剩余的x1和x3再重新计算下与y的相关系数,然后再引入相关系数最大的那个?