请教各位高手logistic回归的问题

3344

收藏 2007-06-17

我的问题：
我这几天在写人口会议的论文，使用的还是李老师给我们的数据中2002年的"中国高龄老人健康长寿调查"数据库，由于这个数据库非常庞大，案例数 16064，变量数百个而且涵盖面广，所以具有很大的可探索性，我浏览了一下调查问卷，选取了一个不起眼的变量"D11-9宗教佛事活动"作为因变量，然后选取了"健康状况"、"心理状况"、"社会支持"、"社会经济状况"、"个人情况"、"家庭状况"、"居住状况"、"生活习惯"八类共41个变量（后面有删减，尚未统计）作为自变量，想要用logistic回归做一个模型来预测老年人的宗教参与情况，由于事先没有看有关宗教研究的文献，所以完全凭感觉来选取这些变量，这可能不符合研究方法，也正是因为这样，我在做模型的过程中遇到了问题：类确定系数太小了，加入了我选取的所有变量（除了生活习惯和居住状况还未全部纳入之外）后，总的类确定系数Cox & Snell R Square才0.052，Nagelkerke R Square才0.084，模型总的Chi-square才400.3876527996，这意味着我有一些非常重要的变量没有纳入，或者我对某些变量的重新编码有问题呢？（比如，我将职业编码成两类F2 您60岁以前的主要从事什么工作（职业）: （单选）0. 专业技术人员/医生/教师；1. 行政管理；2. 一般职员/服务人员/工人；3. 自由职业者；4. 农民；5. 家务劳动；6. 军人；7. 无业人员；8. 其他；我的编码规则是：0、1、2、6编码为0，参照组；3、4、5、7编码为1；8删除），但是我检查了一遍调查问卷，似乎可能与宗教参与有影响的变量都纳入了，这是不是意味着我用这个数据库来研究宗教参与是失败的呢？能够写论文呢？请李老师和各位同门给我指导一下，谢谢了。
我将我的编码规则和变量一览表，以及案例筛选代码全部存在附件中的excel文件中，另外spss运行结果我存为spo文件也放在附件中，请大家给我看看，谢谢了。

同门回复一：

看了你的研究设计，觉得是一个相当有意思也是一个有潜力的问题。就你提出的问题而言，我主要有如下几点看法（或建议）：
1.我run了数据，发现参加宗教活动的老年人比例相当之低，大约只有6.6%。当然这也符合中国的实际状况。不过可以尝试一下，分城乡来做。农村的老年人参加宗教活动的比例相对要高一些。
2.run模型之前，需要有一些基本假设。人的行为时有目的性的，参加宗教也有目的性。譬如交流的需要、赎罪的需要等等。可以从这些方面入手，操作化。举个例子来说，可以看一下老年人与子女的交往状况，对参加宗教活动的影响。当然，参加宗教活动受到一些客观状况的影响，譬如健康，你也选了，参加宗教活动必须要有一定的活动能力（ADL）保证的。
这样模型的解释力可能会强一些。
3. 分类也有有目的性，要与的研究目的相联系。同时，分类不宜过多，多了会占用模型的自由度，从而影响显著性。

一些粗陋的想法，你也可以问问李老师，还有其他同门。

同门回复二：

我也遇到类似的问题，也是正在做的论文。类确定系数太低也许是因为自变量对因变量的解释力太弱了，它们所能解释的因变量的方差太少了。

导师回复一：

关于你现在做的文章，我有如下建议：
1、对你的努力要给予肯定和支持！2、我觉得你的研究设计不是特别好。首先你的问题是什么？是想回答哪些变量会影响老年人的宗教佛事活动吗？如果是这样一个问题，那我认为，在中国对于这批老年人来说，不是一个很合适的问题。在中国社会，宗教活动这样的问题多少有些敏感，况且，在中国也多是泛神论者，这样上述变量关系就不会明显，即便是有关系，也好像不是你假设的这种因果关系。其实，这是一个中国老年人健康长寿的研究课题，课题关注的是哪些因素会影响老年人的健康。你的问题可以关注，但我觉得在这个调查不能满足你的要求。我过去做的一项研究中（"中国高龄老人生活方式与健康自评的相关因素研究"，在我那本书中），是把是否参加宗教佛事作为生活方式自变量来考察的，而国外这方面的研究也有，文中有些讨论，不知你看过这篇文章没有。3、正因为研究设计不是太好，提得问题不得当，所以，感觉是为统计分析而统计分析，这也正是上次谢宇讲座中强调的问题。这样，计算结果不理想也就在预料之中。
没关系，多积累、多练习，总会是有进步的！

导师回复二：

对了，你们都提到了类确定系数，由于这不是线性回归，所以，关于用类确定系数表示解释力一直有不同的看法，所以，很多研究包括我自己，都不会用它来判断方程的有效，主要还是以Chi2变化值来判断的。

forcode回复二：

我当初选择这个变量作为因变量，是考虑到类似法轮功这种民间宗教组织往往打着治病的旗号来发展会员，所以我想老年人的健康状况可能与宗教参与情况相关，现实中也经常看到一些老太太求神拜佛来祛病消灾，我想健康应该会影响宗教参与，希望能够找到一些变量可以预测具有哪些属性的老年人更容易被法轮功这种组织吸引参与，这可能比较有趣。

老师那篇"中国高龄老人生活方式与健康自评的相关因素研究"我们在第二次读书会讨论过。

我在做的过程中也知道可能犯了谢宇所说的统计至上主义（虽然我事先头脑里也有一定的假设），但是作为一种探索性的研究是否可以没有假设就去凭直觉纳入大量变量来寻找可能作用显著的变量呢？然后筛选出显著的变量来建立新的模型呢？因为"健康长寿调查"所包含的数据非常丰富，所以，是不是可以选取其中任何一个有价值的变量作为因变量来分析呢？由于我们是事先获得了这个数据库，然后想发掘这个数据库蕴含的未知变量关系，如果不从数据库出发，而是从以往研究出发，可能建立的假设很难获得需要的变量（因为数据库中没有），所以我觉得从理论出发建立假设这条路，在数据库确定的情况下不太好验证。

"高级社会统计学"那门课的讲义上也说了，类确定系数能否作为方差解释比例存在争议，但是这么低（0.052，0.084）是不是表示肯定解释力很差了呢？如果用chi平方作为衡量标准，那么要多少才比较合适呢？我在老师那篇"社会支持与中国老年人口生活满意度的关系研究"中看到模型一、二、三的chi平方分别是401.25，664.53，746；我现在加入的变量总的chi平方是400.39，这是否可以说还是具有一定的解释力呢？我用这些数据来写一篇论文是否有意义呢？

另外，我打算按骆为祥说的把案例限定为农村老年人来试试，看看是不是能够获得比较高的chi2。

另外，我也感觉到不论回归分析还是别的方法，要确定因果关系真的是非常难。如果获得了显著的回归系数，也只能说二者有确定的相关关系，回归方程中，左右两边的变量可以公式变换把任意一个作为因变量移到左边来，建立模型的意义更大在于预测因变量的状况，比如预测老年人"参与宗教活动"的概率，用来预测的那些变量并不是"参与宗教活动"的原因，仅仅是一些用来预测的指标。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

ermutuxia

2014-11-10 16:25:42

一般的因果关系，更多的是人为假定的，你只有把原因和结果进行假定后，才能检验这种影响关系是否显著

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群