全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
21121 15
2014-12-05
PROC GAM的主要用途是在广义线性模型(PROC GENMOD)基础上探索自变量与因变量之间是否有非线性关系。至于为什么名称中叫“加法模型”,个人简单的理解是:基于PROC GAM得到的预测结果是线性成分与非线性成分的相加得到的,也即线性预测的成分与非线性预测的成分是一个(广义)相加的模型。

既然GAM模型可以拟合线性成分与非线性成分,自然也就可以拟合所有广义线性的结果,也即PROC GAM理论上可以拟合所有PROC GENMOD所能构建的模型。而PROC LOGISTIC回归同时也属于广义线性模型的范畴,也即PROC GENMOD可以拟合PROC LOGISTIC回归所能构建的模型。进一步推理可得,PROC GAM理论上同样也可以构建
PROC LOGISTIC回归所能构建的模型。下面以一个简单的例子说明一下三者之间的区别与联系。

例子来源:PROC GAM 的SAS帮助文件的EXAMPLE 1,主要探索驼背(Kyphosis )的发生是否受小孩接受脊柱手术的年龄(AGE)、脊柱手术的起始脊椎(StartVert )以及手术所涉及脊椎数(NumVert )的影响。对原始程序稍加修改如下:


复制代码


SmoothingComponentPlot1.png


对于输出结果,可以看到PROC GAM 可以拟合与PROC GENMOD以及PROC LOGISTIC回归一样的结果

但是对于包含非线性成分的PROC GAM模型,需要注意的是,上述输出图形的纵坐标包含有负值,难道不应该是0到1之间的概率值吗?


这个问题很早以前,论坛中已经有人提过(https://bbs.pinggu.org/thread-2146081-1-1.html),但是没有回复 ,详细研究之后,得到答案如下:

如果采用PROC GAM构建的模型是 y=spline(x)

所得到的预测结果: E(Y|X=x)=a + bx +s(x)

如果将结果输出,可以看到上述图形中实际只是利用模型的非参数部分,也即 s(x) 对x作图所得的结果。
如果想看预测概率与原始x的关系,可以补充以下程序,但是得到的图形其实并没有实际规律,因为预测值是线性成分bx 与非线性成分s(x)共同构建的结果。所以采用预测值对x作图没有实际意义。而真正有意义的是看非线性成分的回归系数是否小于0.05,如果非线性成分回归系数的P值小于0.05,则提示自变量与因变量之间应该考虑非线性成分的影响。



复制代码





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-12-9 23:07:51
请问这是哪个模块的过程呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-15 13:57:31
但是当自变量中存在分类变量(也即在模型中加入CLASS变量)时,PROC GAM、PROC GENMOD,及 PROC LOGISTIC 回归所得到的结果则并非完全相同,至于为什么会出现如此差异,有待进一步的研究。检验程序如下:
复制代码


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-16 13:17:20
moonstone 发表于 2014-12-15 13:57
但是当自变量中存在分类变量(也即在模型中加入CLASS变量)时,PROC GAM、PROC GENMOD,及 PROC LOGISTIC 回 ...
LOGISTIC 回归所得到的结果则并非完全相同,至于为什么会出现如此差异,有待进一步的研究。
Thanks for sharing.
The difference was resulted from that both logistic and genmod procedures were not converged at all provided that the data and predictors you had given.
I agree with you that the parameters from the three models should be consistent if the models are converged. I don't think the three models use the same optimization methods.
JingJu
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-16 17:48:07
jingju11 发表于 2014-12-16 13:17
Thanks for sharing.
The difference was resulted from that both logistic and genmod procedures ...
非常感谢老师的回复。
老师提到logistic和GENMOD在现有提供的数据中均没有完全收敛,那是否有方法可以验证三个模型在存在class语句的时候能够取得理论上一致的结果。
另外,为什么上述语句中,当存在class语句后,genmod与gam的结果一致呢?只是logistic回归的结果与前两者不一致?
欢迎老师继续交流。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-17 05:50:11
moonstone 发表于 2014-12-16 17:48
非常感谢老师的回复。
老师提到logistic和GENMOD在现有提供的数据中均没有完全收敛,那是否有方法可以验 ...
Thanks. As you mentioned, logistic model can be viewed as a special case from generalized linear models, and thus should provide consistent results for binomial data from Logistic and Genmod procedures. To compare the results we need to specify the models under the same parameterization scheme.

复制代码
The results
_1.PNG
JingJu

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群