全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
20686 10
2014-12-21
今天从logistic回归发现一个奇怪的现象,logistic回归得到的分类变量的回归的P值与相应OR的P值并不一致,不明确原因何在。简单举例如下:
复制代码

从logistic回归过程来看,没有出现异常(没有不收敛,没有线性可分),主要输出结果如下:
logistic回归的矛盾性1.png
从最大似然估计的参数表来看,group2相对于group1的P值=0.0224<0.05,所以可以认为得到的响应的OR置信区间应该不跨1。但是从OR值的表来看, group2相对于group1发生事件的风险OR置信区间跨1啦,所以从置信区间表得出来的P值应该>0.05,所以也就存在矛盾。不一致的地方也同样出现在group3相对于group1。

初步以为这种矛盾是由于似然估计的时候有截距照成的,所以构建没有截距的logistic模型,发现结果很异常,就不在此显示。为了探讨可能的原因,选用group1和group2的数据,采用最简单的频数表的方法计算OR及P值。程序及 结果如下:
复制代码

logistic回归的矛盾性.png
可以看到OR值及置信区间是和logistic回归一致的,但是P值是0.2931,这两者方向上是一致的。所以logistic回归最大似然估计表中得到的P值并不是真正OR对应的P值,对此不明白原因何在。如何才能让logistic回归输出与OR对应的P值,需要进一步的探讨。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-12-21 15:57:47
十分的欣赏兄台钻研,发现和分析问题的热情。

因为比较感兴趣,我对这个问题研究了约3个小时。我现在的想法是模型中的参数系数是针对所有的数据采用最大似然法获得的。

但计算oddsratio的时候针对每对两两比较,采取的仅仅是这2组的数据,如果没有记错的话,如果是连续型变量会自动取所有数据的均值,而分类变量的话就只会取比较的层。

所以应该是没有办法让P和oddsratio对应上的,oddsration有oddsratio的P值。

如果您在这个问题上有新的发现,请也告诉我,十分感谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-21 21:11:36
liudeng2005 发表于 2014-12-21 15:57
十分的欣赏兄台钻研,发现和分析问题的热情。

因为比较感兴趣,我对这个问题研究了约3个小时。我现在的想 ...
已经找到答案,在class语句的选项中加上param=ref后就一致了。具体程序如下:
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-21 21:43:24
logistic回归class语句的param选项的说明如下:
PARAM=keyword specifies the parameterization method for the classification variable or variables. You can specify any of the keywords shown in the following table; the default is PARAM=EFFECT. Design matrix columns are created from CLASS variables according to the corresponding coding schemes:

Value of PARAM=
Coding
EFFECT
Effect coding
GLM
Less-than-full-rank reference cell coding (this keyword can be used only in a global option)
ORDINAL
THERMOMETER
Cumulative parameterization for an ordinal CLASS variable
POLYNOMIAL
POLY
Polynomial coding

REFERENCE
REF
Reference cell coding

ORTHEFFECT
Orthogonalizes PARAM=EFFECT coding
ORTHORDINAL
ORTHOTHERM
Orthogonalizes PARAM=ORDINAL coding

ORTHPOLY
Orthogonalizes PARAM=POLYNOMIAL coding
ORTHREF
Orthogonalizes PARAM=REFERENCE coding

All parameterizations are full rank, except for the GLM parameterization. The REF= option in the CLASS statement determines the reference level for EFFECT and REFERENCE coding and for their orthogonal parameterizations. It also indirectly determines the reference level for a singular GLM parameterization through the order of levels.
If PARAM=ORTHPOLY or PARAM=POLY and the classification variable is numeric, then the ORDER= option in the CLASS statement is ignored, and the internal unformatted values are used. See the section Other Parameterizations of Chapter 19: Shared Concepts and Topics, for further details.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-21 21:50:00
moonstone 发表于 2014-12-21 21:43
logistic回归class语句的param选项的说明如下:
PARAM=keyword specifies the parameterization method fo ...
十分感谢你的新信息!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-23 12:32:18
虽然问题已经解决了,还是附上比较直观的理解方式如下。希望对朋友们有所帮助。
http://www.ats.ucla.edu/stat/sas/faq/proc_logistic_coding.htm
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群