根据张文彤《 SPSS.11-0统计分析教程 (高级篇) 第5章中关于Logistic回归模型的样本量,有论述如下:首先选择应变量较少的那一类,然后将该数值除以10,这就是模型中可以分析的自变量数。例如有100条记录,其中结局为患病的70条,30条为未患病,则模型中可分析的自变量数为30/10=3.如果希望分析四个自变量,请增加样本量。 按照上面说法,我的视力筛查样本资料,71例中,正常的19例,异常的52例,则模型中分析自变量数应为19/10=1.9 。只能分析1个(或四舍五入2个?)自变量?而我的样本自变量却有16个。如果要把16个用起来的话,则样本需要160正常的,即160/10=16,而异常的也要起码161以上,总样本不能少与321例。 ——这样的理解是否正确呢?而SPSS10.0教程中的引例(见下列摘要)总26例,有转移的9个,按上述说法9/10=0.9,自变量1个都不可以?显然它却有5个自变量。 SPSS10.0教程摘要如下: §10.3 Binary Logistic过程所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。 10.3.1 界面详解与实例例11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析(本例来自《卫生统计学》第四版第11章)。 · i: 标本序号 · x1:确诊时患者的年龄(岁) · x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级 · x3:肾细胞癌组织内微血管数(MVC) · x4:肾癌细胞核组织学分级,由低到高共4级 · x5:肾细胞癌分期,由低到高共4期 · y: 肾细胞癌转移情况(有转移y=1; 无转移y=0)。 ix1x2x3x4x5y 159243.4210 236157.2110 3612190210 4583128431 555380341 661194.4210 738176110 8421240320 950174110 1058368.6220 11683132.8420 1225294.6431 1352156110 1431147.8210 1536331.6311 1642166.2210 17143138.6331 18321114230 1935140.2210 20703177.2431 2165251.6441 22452124240 23683127.2331 24312124.8230 25581128430 26603149.8431 这如何解释?如何解释Logistic回归模型的样本量要求?