我最近在做线性模型中的变量选择问题,要用到Fan and Li(2001)年的SCAD方法来做,我编了一个程序,感觉有问题。主要问题就出在,当回归系数很小时,就令其为零,这其中的阈值该怎么取?我的程序中是将它设为1e-4.Fan and Li(2001)的论文中说回归系数很小是就令最终的估计为零,并把相应的设计阵中的对应的那一列去掉。我具体的做法是这样的,我把很小的回归系数设为了零,而把相应的设计阵中的那一列设为零,之后用广义逆来做。最后用GCV 来选模型中的参数。但在选出使得GCV最小的参数后,效果不是很好。就是其中还有好几个变量没选出来,而且估计也不好。另一问题是,Oracle 的GCV是不是最小的?我的模拟出来后,有一部分的GCV比Oracle的GCV还要小。
做了两周了,晚上做梦都在想这个东西。希望有相关方面研究的高人指点指点,小弟在此先谢过了!