最好有实际数据。就你的问题说明如下:
1.数据的预处理:
1)缺失值:选:transform---replace missing values,在出现的窗口中进行相应设置即可。一般情况下选“近邻值”,前后范围为2,或者选序列均值。缺失值一般不建议剔除,因为样本容量大会好些。
2)极端值:如果不多,只是个别,可考虑剔除掉。通过3西格玛准则。
2.建立多元回归模型:
从你所提的范围内,建议可分别做“进入”,“逐步回归”,“向前”,“向后”法等,然后从调整的可决系数(一般越高越好),回归系数的t检验,回归方程的F检验(后面的p值一般要小于给定显著性水平,如0.05)等角度看其结果哪个更好,选择相对最好的一个即可。
上述四个方法进出的情况为:
进入:全部进入;
逐步回归:有进有出,在软件内一般都设置好的,默认即可;
向前法:一个一个进入,前提是满足其默认设置的进入条件;
后退法:先全部进入,再一个一个剔除;
其中在软件中后三者的默认设置即进,出的条件都是已设置好的,一般可不作更改。
3.建议:
在多元回归建模中,一般都会出现多重共线性,建议用主成分回归或岭回归等方法来建模。