全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
7330 3
2014-05-25
我有一堆自变量,里面有类别性质的变量 也有连续型变量,能否通过GLM分析来筛选对因变量有显著影响的自变量呢?

具体落实到code上,是否class后面得把所有自变量都得列进去,对于类别性质的自变量后面可以加个means语句做多重比较?
GLM模型最后给出的回归参数截距可以用来反映自变量对于因变量的影响大小么?

谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-5-26 22:31:00
当然可以用GLM对自变量进行筛选。

我一般会先进行所以自变量的归一化,这样可以保持所有变量的量纲在同一级别,最终用自变量的系数来考察各个自变量的贡献。

变量的转化,理论上来说,连续性变量和带有量纲级别的离散变量(例如等级)可以用GLM模型,但是那种纯粹的类别性质的离散变量(颜色)不可以用GLM模型。带有量纲级别的离散变量先要进行二值化,如果有5个等级,你可以将这一个变量拆分成4个新的变量。具体方法请自己查阅相关的资料,google,离散变量,回归模型。

具体落实到code上,是否class后面得把所有自变量都得列进去,对于类别性质的自变量后面可以加个means语句做多重比较?
我没有用过sas,我一般用matlab,你可以查看sas的proc reg,sas help有很清楚的说明啊

GLM模型最后给出的回归参数截距可以用来反映自变量对于因变量的影响大小么?
no,截距说不明不了问题,把一条直线往上移动1000各单位,自变量跟因变量的关系没有丝毫的变化。
自变量的系数说明了他对因变量的贡献程度,最后的假设检验的Pr则说明,到底是显著相关。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-5-27 10:12:48
可以用1 和 0 来处理吧。。如红黄绿  分别用1 0 0   0 1 0  0 0 1.。。等等
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-5-28 21:23:39
jardeko 发表于 2014-5-27 10:12
可以用1 和 0 来处理吧。。如红黄绿  分别用1 0 0   0 1 0  0 0 1.。。等等
u got it
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群