全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
15201 21
2009-05-20

     本人用sas做了个岭回归,其中有关于VIF的计算,大家知道vif=1/1-R2i,R2i为第i的自变量对模型其他自变量回归所得到的拟合优度。但是在岭回归中,在计算不同 λ值所对应的回归系数时,sas也给出了不同的VIF值,并且VIF是递减的,我们知道岭回归是不删除变量的,那么对应不同 λ的VIF指是怎么算出来的,有哪位大牛知道其算法,最好有公式,在下先谢了!

      

[此贴子已经被作者于2009-5-20 23:15:48编辑过]

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2009-5-21 00:29:00
我想帮你啊,但不会啊,还在学习中
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-5-21 08:43:00

B=Beta

在经典多元线性回归分析中, 参数B=(B0, B1,. . . , Bm )′的最小二乘估计b=(b0,b1,. . . ,bm )′的均方误差为

E{(b-B)′(b-B)},当自变量存在多重共线关系时, 均方误差将变得很大,故从均方误差的角度看, b不是B的好估计。


减少均方误差的方法就是用岭回归估计替代最小二乘估计。设k≥0, 则称


b(k)=(X′X+kI)-1X′Y (-1是应当是逆可打不出上标)

为B的岭回归估计。用岭回归估计建立的回归方程称为岭回归方程。当k= 0 时b (0) = b 就是
B的最小二乘估计。从理论上可以证明, 存在k>0, 使得b (k) 的均方误差比b 的均方误差小;
但使得均方误差达到最小的k 值依赖于未知参数B和R2。因此k 值的确定是岭回归分析中关
键。

在实际应用中, 通常确定k 值的方法有以下几种: ① 岭迹图法, 即对每个自变量xi, 绘制
随k 值的变化岭回归估计bi (k) 的变化曲线图。一般选择k 使得各个自变量的岭迹趋于稳定。
② 方差膨胀因子法, 选择k 使得岭回归估计的VIF<10。③ 控制残差平方和法, 即通过限制b(k)

估计的残差平方和不能超过cQ (其中c> 1 为指定的常数,Q 为最小二乘估计的残差平方
和) 来找出最大的k 值。  (以上引子高惠璇)

因此岭回归中vif的算法是不变的,变的只是参数估计分析方法不同于一般的最小二乘回归分析

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-5-21 18:01:00

                   _          _               I
      _                D     _    P               N
      M        _       E     R    C      _        T
      O        T       P     I    O      R        E
      D        Y       V     D    M      M        R        L         L
 O    E        P       A     G    I      S        C        N         N      L
 B    L        E       R     E    T      E        E        X         X      N
 S    _        _       _     _    _      _        P        1         2      Y

 1  MODEL1  PARMS     LNY   .     .  0.036200  8.43725   0.3646   -0.0598  -1
 2  MODEL1  RIDGEVIF  LNY  0.000  .   .         .       30.1663   30.1663  -1
 3  MODEL1  RIDGE     LNY  0.000  .  0.036200  8.43725   0.3646   -0.0598  -1
 4  MODEL1  RIDGEVIF  LNY  0.005  .   .         .       17.9749   17.9749  -1
 5  MODEL1  RIDGE     LNY  0.005  .  0.036353  7.34630   0.3200    0.0759  -1
 6  MODEL1  RIDGEVIF  LNY  0.010  .   .         .       11.9599   11.9599  -1
 7  MODEL1  RIDGE     LNY  0.010  .  0.036604  6.67025   0.2919    0.1603  -1
 8  MODEL1  RIDGEVIF  LNY  0.015  .   .         .        8.5573    8.5573  -1
 9  MODEL1  RIDGE     LNY  0.015  .  0.036847  6.21282   0.2725    0.2177  -1
 10  MODEL1  RIDGEVIF  LNY  0.020  .   .         .       6.44705  6.44705  -1
 11  MODEL1  RIDGE     LNY  0.020  .  0.037062  5.88465  0.25833  0.25910  -1
 12  MODEL1  RIDGEVIF  LNY  0.025  .   .         .       5.04861  5.04861  -1
 13  MODEL1  RIDGE     LNY  0.025  .  0.037250  5.63924  0.24743  0.29026  -1
 14  MODEL1  RIDGEVIF  LNY  0.030  .   .         .       4.07430  4.07430  -1
 15  MODEL1  RIDGE     LNY  0.030  .  0.037415  5.44999  0.23877  0.31447  -1
 16  MODEL1  RIDGEVIF  LNY  0.035  .   .         .       3.36835  3.36835  -1
 17  MODEL1  RIDGE     LNY  0.035  .  0.037561  5.30057  0.23171  0.33376  -1
 18  MODEL1  RIDGEVIF  LNY  0.040  .   .         .       2.84045  2.84045  -1

感谢楼上的回答,我知道VIF的计算方法是不变的,但是为什么sas输出的结果是下降的,以上是我做的结果,加粗数值就是下降的VIF(0-0.04是不同的λ
),不知道是怎么计算的,它的计算步骤是什么。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-5-22 09:33:00

你所说的λ也就是我说的k,在仔细看看上个恢复的公式你就知道了,

"在经典多元线性回归分析中, 参数B=(B0, B1,. . . , Bm )′的最小二乘估计b=(b0,b1,. . . ,bm )′的均方误差为

E{(b-B)′(b-B)},当自变量存在多重共线关系时, 均方误差将变得很大,故从均方误差的角度看, b不是B的好估计。


减少均方误差的方法就是用岭回归估计替代最小二乘估计。设k≥0, 则称

b(k)=(X′X+kI)-1X′Y (-1是应当是逆可打不出上标)"

为什么λ(即我说的k值)的值越大vif会越小?因为岭回归的有偏估计代替了最小二乘估计,使得变量间之间减少共线性,但同时RMSE会变大,所以岭回归方程的关键是k值的选择,你的k值越大vif值会越来越小,但RMSE会变大,你要选择一个使vif<10且RMSE变化最小的一个k,然后得到的岭回归方程,可画岭迹图, 即对每个自变量xi, 绘制随k值的变化岭回归估计bi(k) 的变化曲线图。看什么时候会k值会使变量变化趋于稳定,但什么样是问题,都要根据你自己的尺度和实际情况来订,你的结果不错的,你的k值范围取的并不大,你应当画下图看看,后面取值可以变化到

"model y=x1 x2 x3/ridge= 0.0 to 0. 1 by 0. 01 0. 2 0. 3 0. 4 0. 5;

plot /ridgeplot;

"

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-5-22 23:32:00

λ我取的是0-0.01,步长为o.o5,输出结果只是贴出了一部分,岭迹图也画出来了。

这个东西其实是我一个关于岭回归的作业,我把vif下降的输出结果给老师看(就是上面我贴出来的,用加粗体表示的一系列下降数据),老师问我那个下降的vif是怎么得出来的,我也不知道,所以才到论坛上发帖。

可能是我没说清楚, 感觉realgod5417说了很多,但还是没有完全回答我提的问题:就是进行岭估计后,自变量x下降的方差膨胀因子vif是如何的出来的。

 ( 注:vif=1/1-R2i,R2i为第i的自变量对模型其他自变量回归所得到的拟合优度,按道理自变量x不变,vif的值应该一直不变,只要x一定,它不受λ影响,或许是我才疏学浅,希望哪位大牛给与赐教。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群