全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
9778 11
2020-04-19

广义估计方程中,当因变量为非正态分布资料(联系变量)时,应该使用哪个连接函数?还是可以不适用连接函数?如下面的geeglm函数设定正确吗?

gee <- geeglm(y ~ x1 + x2, data=GEEData, id=id, family = gaussian,corstr = "exchangeable")

在SPSS的帮助文档中提到关联函数是允许模型估计的因变量的转换。可用函数有:

  • 恒等f(x)=x。因变量不转换。该关联可用于任何分布。
  • 互补双对数f(x)=log(−log(1−_x_))。该函数只适用于二项分布。
  • 累积 Cauchitf(x) = tan(π (x - 0.5)),适用于每个响应类别的累积概率。该函数只适用于多项分布。
  • 累积互补双对数f(x)=ln(−ln(1−_x_)),适用于每个响应类别的累积概率。该函数只适用于多项分布。
  • 累积分对数f(x)=ln(x / (1−_x_)),适用于每个响应类别的累积概率。该函数只适用于多项分布。
  • 累积负双对数f(x)=−ln(−ln(x)),适用于每个响应类别的累积概率。该函数只适用于多项分布。
  • 累积概率f(x)=Φ−1(x),适用于每个响应类别的累积概率,其中 Φ−1 是逆标准正态累积分布函数。该函数只适用于多项分布。
  • 对数f(x)=log(x)。该关联可用于任何分布。
  • 对数补数f(x)=log(1−_x_)。该函数只适用于二项分布。
  • Logitf(x)=log(x / (1−_x_))。该函数只适用于二项分布。
  • 负二项式f(x)=log(x / (x+k −1)),其中 k 是负二项分布的辅助参数。该函数只适用于负二项分布。
  • 负双对数f(x)=−log(−log(x))。该函数只适用于二项分布。
  • 奇数幂f(x)=[(x/(1−_x_))α−1]/α,(如果 α ≠0。)f(x)=log(x)(如果 α=0)。α 是必须指定的数字,并且必须是实数。该函数只适用于二项分布。
  • Probitf(x)=Φ−1(x),其中 Φ−1 是逆标准正态累积分布函数。该函数只适用于二项分布。
  • f(x)=x α(如果 α ≠ 0。f(x)=log(x)(如果 α=0。) α 是必须指定的数字,并且必须是实数。该关联可用于任何分布。

那我是不是可以认为恒等,也就是不使用任何连接函数,默认情况下是可以处理非正态分布的数据的?

SPSS中还有一个多重比较的功能,我试了以下,不同模型(自变量不同)下,多重比较出来的结果不一样,显然貌似好像不是使用单重LSD.test或者是非参数检验后的多重比较方法,那SPSS的算法又是怎样的?多重比较直接使用LSD.test或者是非参数检验后的多重比较方法可以吗?求教。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-4-19 23:36:31
所谓广义线性模型,要求因变量只能通过线性形式依赖于解释变量。你说的非正态分布,可能是binominal、poisson,也可能是gamma,这些都要求一个连接函数。
spss的连接函数设定比较详细,在R中glm(formula,family=binominal(link=logit),data)和你用的函数类似。
对于glm,默认分布是gaussian,所以可以不用指定,如果是非正态,那还是要写family。
但也不一定需要指定连接函数,比如binominal默认连接函数是logit()。
你用的函数我没用过,你再仔细看看文档。但我估计如果不使用连接函数 ,是不能处理非正态分布的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-4-21 11:25:26
llb_321 发表于 2020-4-19 23:36
所谓广义线性模型,要求因变量只能通过线性形式依赖于解释变量。你说的非正态分布,可能是binominal、poiss ...
非常感谢,有点明白了,但是还是不明白的是对于非正态分布的连续变量,比如有年龄这么一组数据:
age <- c(12, 32, 33, 89, 100, 55, 13)

这组数据明显是偏态分布的,应该使用什么样的连接函数合适?或者说我在拟合模型之前应该通过各种正态性变换(比如平方根、log)将因变量进行正态性转换,然后再进行模型拟合?拟合后的效应值是否需要逆变换?
如果经过正态性变换,因变量依然为偏态分布的,怎么办?



一直都没搞明白 [loveliness] [loveliness]

[em23] [em23]
求教 [tongue] [tongue]




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-4-21 13:18:01
我也不是统计专业的。只是讲自己对问题和相应资料的理解,也可能是错的。你举例的数据,是小样本,你说数据呈现的分布表现出偏度,但不一定代表age数据是非正态的。不同的分布根据数据所代表的对象而定。比如二项分布,是伯努利试验独立重复n次衍生的,而泊松分布描述的是单位时间或单位xx内某事件发生的次数。不同分布在小样本时表现出不同的形态,比如峰度、偏度,但在样本量增加时,会表现出渐近正态性,所以你举例的age,如果样本量增加,分布就不一定是你所看到的非正态。那么回归分析前,我们怎么确定因变量的分布及应该采用的连接函数呢,我觉得可根据实际案例来定,比如因变量是描述发生或不发生的情况,应用二项分布做logistic回归。这里有专业统计的大牛,不好意思我在这班门弄斧。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-4-21 13:23:36
核心是通过连接函数建立响应变量和解释变量之间的线性关系。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-4-21 16:40:08
llb_321 发表于 2020-4-21 13:18
我也不是统计专业的。只是讲自己对问题和相应资料的理解,也可能是错的。你举例的数据,是小样本,你说数据 ...
我又回顾学习了下各种广义模型,广义的核心是通过连接函数将因变量转换为线性(转换后理论上应该符合正态分布?我也不是统计学专业的,估计应该是),问题是在数据量有限(连续变量),而因变量通过正态性检验方法(直方图、pp图、KS检验等)发现的确是明显偏态分布时应该怎么办?这里的连接函数可选的有哪些?最后得出结论的效应值是否需要逆转换后再去解释?
非统计专业,没有老师,完全自学,有些问题可能理解不正确,见谅啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群