其是在建模之前对各特征进相关性检验,若存在多重共线性,则可考虑进步对数据集进
SVD分解或PCA主成分分析,在SVD或PCA执的过程中会对数据集进正交变换,最终所得数据
集各列将不存在任何相关性。当然此举会对数据集的结构进改变,且各列特征变得不可解释。
其则是采逐步回归的法,以此选取对因变量解释度最强的变量,同时对于存在相关性的
变量加上个惩罚因,削弱其对因变量的解释度,当然该法不能完全避免多重共线性的存
在,但能够绕过最乘法对共线性较为敏感的缺陷,构建线性回归模型。
其三则是在原有的算法基础上进修改,放弃对线性程参数偏估计的苛刻条件,使其能够容忍
特征列存在多重共线性的情况,并且能够顺利建模,且尽可能的保证 取得最值。
通常来说,能够利个算法解决的问题尽量不多个算的组合来解决,因此此处我们主要考虑后两个
解决案,其中逐步回归我们将放在线性回归的最后部分进讲解,第三个解决案,则是我们接
下来需要详细讨论的岭回归算法和Lasso算法。