全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
1442 8
2024-12-30

本文涵盖了Prism中可用的生存分析方法,包括Kaplan-Meier生存估计以及使用Cox比例风险回归进行生存分析。这两种方法截然不同,它们在各自的页面上都有详细的解释。


  • 生存分析的基本概念
  • Prism中的生存分析方法
  • 如何进行Kaplan-Meier(非参数)生存分析
  • Kaplan-Meier生存分析的结果
  • 如何进行Cox比例风险回归
  • Cox比例风险回归的结果

Cox比例风险回归的结果


本文将为您提供如何解读Prism为生存分析生成的结果的相关信息。


  • 表格结果
  • 个体值
  • 基线值
  • Cox比例风险回归的残差
  • 估计生存曲线



表格结果

当Prism进行Cox比例风险回归分析时,生成的主要结果表(标签页)是表格结果表。在此表上,您将找到所有用于分析结果的主要结果。这个表格结果表的每个部分都被细分,并在各个页面上进行了解释:


  • 参数估计
  • 风险比
  • P
  • 模型诊断





- 参数估计

当进行Cox比例风险回归时,Prism提供了两个值来表明每个预测变量对风险率的影响:


  • 参数估计
  • 风险比

这两个值是彼此的简单变换,因此提供了相同的信息。如果您是Cox回归的新手,理解风险比可能会更容易一些。

这些参数估计和风险比的P值计算信息可以在其各自的页面上找到。


参数估计


Cox比例风险回归中的参数估计解释比Prism提供的其他形式的多元回归要稍微复杂一些。这是因为Cox比例风险回归所使用的模型研究的是预测变量与风险率之间的关系。作为参考,这里是一般模型:


1.png



另一种表示此模型的方法是将两边除以基线风险(h0(t))并取自然对数,得到:


2.png


这是可以理解参数估计的模型形式。例如,考虑一个只有连续变量“年龄”作为预测变量的分析。如果年龄的参数估计为0.5,模型将如下所示:


3.png


基于这个模型,可以看出当年龄的值增加1时,对数(风险率)的值将增加0.5。虽然这些参数估计以绝对值来理解时可能有些困难,但它们确实很好地表明了:正的参数估计值表明预测变量增加时风险率会增加,而负的参数估计值表明预测变量增加时风险率会降低。


请注意,风险率的增加对应于所关注事件发生风险的增加,而风险率的降低对应于所关注事件发生风险的降低。


标准误差和置信区间

参数估计(顾名思义)是对整个总体中未知值的简单估计。要知道参数的真实值,唯一的方法是收集整个总体的数据。例如,如果您想知道人类的平均身高,您可以(假设地)测量每个人的身高。然而,由于无法实现这一点,您可以改为收集一个样本的数据。从这个样本中,您计算出一个平均值,而这个平均值由于您所选样本的随机性会有一些误差。在Cox比例风险回归中,Prism报告两个值,这两个值提供了一个关于参数估计中误差量的概念:标准误差和轮廓似然置信区间。

系数的标准误差可能难以解释,但简单来说,它提供了一个关于参数估计精确程度的概念。


另一种看待这种精确度概念的方法是使用置信区间。这些值提供了一些关于您对所提供的参数估计有多确定的概念。置信区间的一般概念是-如果您要重复相同的实验很多很多次,并为每次重复实验构建置信区间-95%的这些区间(对于95%置信区间)将包含总体的真实参数系数。请注意,一些软件报告对称置信区间,这些区间是直接使用标准误差计算的。Prism实际上计算的是更准确的轮廓似然置信区间。这些区间(通常)是围绕估计的参数值不对称的。


- 风险比

当进行Cox比例风险回归时,Prism提供了两个值来表明每个预测变量对风险率的影响:


  • 参数估计
  • 风险比



这两个值是彼此的简单变换,因此提供了相同的信息。如果您是Cox回归的新手,理解风险比可能会更容易一些。


简单版本


风险比代表了一个给定参数对结果的“倍增效应”。如果一个参数的风险比为2,那么该参数值每增加1,风险率在所有时间点都会翻倍。


详细版本

风险比是Cox比例风险回归计算出的参数估计的一种转换,前文已经提到,这些参数估计(β值)表明了因预测变量值的变化而导致的对数(风险率)的变化量。然而,考虑对数(风险率)比考虑简单的风险率要复杂一些。风险比用于表明当与该风险比相关的预测变量发生变化时,风险率会变化多少。


考虑Cox比例风险回归使用的模型:


4.png


另一种表示此模型的方法是将两边除以基线风险率(h0(t)):


5.png


可以通过以下方式展开:


6.png


7.png



8.png


如果我们将术语“exp(β1)”替换为“HR1”,将得到:



9.png

这个方程的最终形式清楚地展示了参数估计和风险比之间的关系:如果您对给定预测变量的参数估计进行指数运算,您将得到风险比。利用这些知识,可以看出这些风险比的值有如下解释:

对于给定的风险比HRi,当所有其他预测变量的值保持不变时,xi增加一个单位对风险率的影响是乘法效应。

举个简单的例子,考虑预测变量“年龄(以年为单位)”的风险比为2。当年龄增加一岁时,风险率将乘以21(即2)。当年龄增加两岁时,风险率将乘以22(即4)。风险比提供了预测变量对风险率的“乘法效应”。

Prism还为这些风险比提供了置信区间。置信区间常常被误解,因为它们并不完全符合我们的直觉。对置信区间的正确解释是:“如果我们反复从同一总体中选择观察值进行多次实验,我们预测95%的相应95%置信区间将包含真实总体值”。


- P

虽然默认情况下不显示,但Prism提供了计算和报告Cox比例风险回归模型中每个参数估计(和风险比)的P值的选项。这些P值是通过检验真实参数估计(β)等于零的零假设生成的(这是针对每个参数估计单独测试的)。请注意,如果真实参数估计实际上为零,那么相关预测变量的任何增加或减少都不会对风险率产生影响。

当考虑风险比而不是参数估计时,零假设是真实风险比等于1。这是因为风险比是倍数,风险比等于1表示相关预测变量的变化不会影响风险率。

无论您是想从系数β还是风险比的角度考虑,同样的零假设都适用。这是由于β系数和风险比之间的关系。回想一下,风险比是通过取相应β系数的指数来计算的(HR=exp(β))。因此,测试β系数是否等于零与测试风险比是否等于exp(0)=1是相同的。换句话说,零假设断言相关预测变量的值不会影响风险率。

对于每个报告的预测变量值,计算出的P值回答了以下问题:如果零假设(上述)为真,并且所有分析假设都是合理的,那么观察到这个参数估计的大小或更大(或更小)的概率是多少?如果P值足够小(小于指定的α水平,通常设置为0.05),则零假设(即参数估计为零)被拒绝。


对于这些测试,我们总是生成双侧(双尾)P值,因为我们同样关注大于或小于零(或风险比大于或小于1)的参数估计。如果您想要单侧P值:


  • 您必须预测效应的方向(风险比大于或小于1,或参数估计大于或小于零)在您的实验设计中。
  • 如果实际方向与预测匹配,单尾P值等于双尾P值除以2。
  • 如果实际方向与预测相反,单尾P值等于1-(双尾P值/2)
[size=14.6667px]

REMEMBER:未能拒绝参数估计为零的零假设,并不确认这个假设!所有能说的是,根据给定的数据,这个假设不能被拒绝。

当在分析参数对话框中选择P值选项时,Prism将报告:


  • Z的绝对值,计算为参数估计除以其标准误差。
  • 从Z确定的P值。
  • P值摘要,报告为“ns”(不显著)或一个或多个星号。
[size=14.6667px]

- 模型诊断

当进行任何类型的回归分析时,通常有兴趣研究模型如何描述数据与其他可能模型相比的拟合情况。Prism提供了多种方法来提供关于模型拟合程度的信息。具体来说,对于Cox比例风险回归,Prism将报告Akaike信息准则(AIC)、偏对数似然(-2*LL)和伪R平方。


Akaike信息准则(AIC)


该值来自一种信息论方法,该方法试图确定模型对数据的拟合程度。报告的值取决于偏对数似然(如下所述)以及模型中参数的数量。请注意,由于难以指定模型中存在的协变量数量,Prism(与其他软件类似)仅报告AIC,而不报告校正的AIC(AICc)。计算AIC的公式如下:


10.png


其中k是模型中的参数数量(由于Prism在数据汇总部分的结果中报告)。


解释AIC


AIC的解释很大程度上依赖于似然(更具体地说,对数似然或在Cox回归的情况下,模型的偏对数似然)的概念。一般来说,似然的概念是模型告诉您这些数据在假设所选模型为“真实”模型的情况下生成的可能性有多大。有了这个概念,就应该明白“好”模型会产生较高的似然值,而“差”模型的似然值较低。


在上述公式中,我们看到AIC取决于两件事:


  • 模型的偏对数似然
  • 模型中的参数数量(k)
[size=14.6667px]

关于AIC的进阶信息

当比较模型时(例如,在相同数据上比较两个相互竞争的模型,或者将一个特定模型与空模型进行比较),由于假设这些是每个模型的唯一可能值,并且因此其中一个必须是正确的,所以可以使用每个模型对应的AIC值来计算每个模型“正确”的“概率”。为此,我们可以使用两个AIC值之间的差值。首先,让我们定义一个新模型:


11.png




其中,AICi是单个模型的AIC,而min(AIC)是所比较模型中所有可能AIC值中的最小值。请注意,对于AIC值最小的模型,AICi将与min(AIC)相同,因此该模型的Δi为零。一旦我们有了每个模型的Δ值,就可以使用以下公式计算每个模型“正确”的“概率”:


12.png


例如,考虑具有以下AIC值的两个模型的比较:


  • 模型1 AIC:283
  • 模型2 AIC:285
[size=14.6667px]

这些模型的Δ值如下:

  • 模型1 Δ:0
  • 模型2 Δ:2
[size=14.6667px]


并且每个模型正确的概率计算如下:


  • 模型1:73.11%




13.png


  • 模型2:26.89%
[size=14.6667px]

14.png


这种方法可以扩展到对任意数量模型的比较,但要记住这种方法的假设是被比较的模型中有一个是“真实”模型(尽管这个假设在实践中可能并不完全成立)。


偏对数似然(Partiallog-likelihood (LL))

似然的概念在数学上相当复杂,它在估计作为Cox比例风险回归分析-部分的最佳拟合参数值时被使用。然而,偏对数似然可用于评估模型拟合的方法(幸运的是)相当简单。

一般来说,当比较两个基于相同数据的模型时,具有较大对数似然值的模型被认为是更好的“拟合”。请注意,这些对数似然值通常是负数。在这种情况下,较大的值等同于较小的负值。因此,具有较小负值的模型被认为是具有更好“拟合”的模型。


当选择此选项时,将给出无协变量模型(空模型)和指定模型的偏对数似然值。如果所选模型的偏对数似然值小于空模型的负对数似然值,这意味着指定模型比空模型更不可能生成输入数据。然而,通常使用每个模型的AIC值来确定哪个模型“更好”(AIC值较小的模型被认为是“更好”的模型拟合)。


负二倍偏对数似然(-2*LL)


与Prism在本节结果中报告的其他值一样,该值与偏对数似然相关,可用于评估模型对给定数据的似合程度。如前所述,该值“-2”(“-2倍偏对数似然”)在计算AIC时直接使用。幸运的是,一旦您得到了偏对数似然(由Prism报告),计算这个值就像乘以-2一样简单。其他程序和书籍有时会以其他等效方式报告这个公式:


15.png


16.png







伪R2

当考虑回归分析中的“拟合优度”时,通常会出现R2(决定系数)的概念。这个指标由模型解释的方差提供了一个估计值,并且在进行多元线性回归时非常有用,但对于Cox比例风险回归没有办法计算相同的指标。因此,提出了许多其他“伪R2”类似物。请注意,这些值与R2的数学解释不同。伪R2值并不代表由指定模型解释的方差比例。相反,这些伪R2值通常用于比较多个模型对相同数据的拟合优度。

如果在Cox比例风险回归的参数对话框中选择,Prism将报告Cox-Snell的R2 (有时称为“广义”R2)。这个值是根据以下公式使用指定模型和空模型(无协变量模型)的似然值计算的:


17.png


其中Lm 是指定模型的偏似然(注意,不是对数似然),L0是无协变量模型(空模型)的偏似然,n是模型中使用的观测次数(包括删失观测)。

从这个伪R2的公式中,我们可以看到,当一个模型对数据的拟合更好(Lm的偏似然值更高)时,分数变得更小,R2值更大。当给定模型的偏似然小于空模型的偏似然时,分数更大,相应的R2值更小。

空模型的偏似然通常非常小,但不为零。因此,Cox-Snell R2的最大值取决于空模型的似然,并且可能非常接近1(有时接近到计算机无法计算差值),但不一定等于1。


总结:


  • 这个伪R2的最小值是0.0。
  • 这个伪R2的最大值小于1.0,但在许多情况下非常接近1.0。






个体值

在进行Cox比例风险回归后,模型会拟合预测变量与模型中的变量以及估计风险率之间的关系。

一旦模型确定,就可以为输入数据表中的每个原始个体观察提供额外信息。这些值可以在个体值选项卡的结果中找到,并且输入数据表中的行对应于个体值结果表中的行(观察顺序与输入数据表相同)。具体而言,对于每个个体观察,会报告以下值:


  • 线性预测因子,XB:这是在输入估计的参数估计值和每个预测变量的值后计算得到的Σxi*βi值。这个值表示每个个体在估计对数(风险率)从基线风险的变化量。
  • 风险比,exp(XB):这个个体的指数化线性预测因子(XB)。这是用于从基线风险率的乘法标量,或者是从基线累积生存道个体累积生存的变化量。Cox回归严重依赖于比例风险假设(即,任何个体的风险率与某些未知基线风险成比例)。这个相对风险值exp(XB)表示比例性(多少次更大或更小是这个特定个体相对于基线风险的风险)。
  • 累积风险,H(t):这是模型在给定观察的失效时间(到时间t的总累积风险)时估计的个体累积风险。累积风险的较高值对应于估计累积生存概率的较低值。这个值对于许多数学/计算原因很重要(并且也包含在结果表中),但不容易直接解释。累积风险和累积生存之间的关系可以用以下公式表示:




24.png

  • 累积生存,S(t):这是模型在给定观察的失效时间时估计的个体生存。这个值表示假设每个预测变量在该观察中具有相同值的情况下,个体生存到此时的概率。这个值是从基线生存函数,使用以下公式计算:


25.png

注意,使用上述两个方程,可以直接从基线生存函数和线性预测值(XB)计算出模型对个体累积危险度的估计值:


26.png


27.png


28.png



附件列表
17.png

原图尺寸 3.29 KB

17.png

14.png

原图尺寸 4.49 KB

14.png

12.png

原图尺寸 3.84 KB

12.png

8.png

原图尺寸 5.84 KB

8.png

8.png

原图尺寸 5.84 KB

8.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-12-31 08:46:34
不错的资讯,很nice
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-12-31 15:45:11
挺认真的呢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-12-31 19:27:12
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-1-1 09:01:07
感谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-1-1 09:07:28
点赞分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群