继续求助!
具体情况如下:
我的样本数量是700例,因变量是连续型变量,但是不符合正态分布,就根据专业知识转为了二分类变量。自变量预确定15个。目的是希望找到因变量和自变量间是否相关。
偶的步骤:
先将每一个自变量与二分类的应变量分析,(如果自变量是连续型变量且大致符合正态分布,就用独立样本t-test;如果是分类型变量,就用卡方检验)
将上一步中有显著差异的自变量与应变量做logistic回归分析,找到与因变量相关的自变量。
偶的问题:
1、因变量由于不符合正态分布被转为二分类变量,虽然也符合专业方面的要求,但是,这样做是否合理?还有其他解决方法吗?
2、偶的步骤是否合理?可以这样挑选自变量后再用logistic回归分析吗?会不会损失某些可能有显著影响的自变量?
3、logistic回归模型,在这个情况下,我是直接选enter还是向后(向前)逐步回归呢?
4、logictic回归模型的拟合优度不高,cox-snell R2只有0.052,虽然HLT的sig为0.998,这样可以接受用这个模型吗?拟合优度各个判别检验的一般接受水平是多少啊?
5、logistic回归模型包括常数项的检验,step0 正确预测率是71.2%,加入自变量后,向后逐步回归剩下2个自变量,但是正确预测率仅为71.3%,这个怎么解释?
6、做logistic回归时检验了各自变量是否相关,请问判别相关的水平一般认为是多少啊?
7、在单一自变量分析时,其中一个自变量(二分类变量)与因变量关系非常显著,这样直接把这一自变量与其他关系不太显著的自变量放在一起,会不会使其他自变量被排除?(还是仍能正确反映其他自变量,只是expB 会比较小?)可不可以直接根据这个关系显著的二分类变量将样本分成两部分,再分别用logistic回归模型?这样做与直接用回归,结果哪一个更可信呢?
嗯,以上就是偶的问题,非常希望各位大侠能够解决偶的疑问啦。。。
只是偶担心可能过于菜鸟,怕有些表达不太清楚。。。 [em06]
[em06]
 [此贴子已经被作者于2009-6-7 20:35:19编辑过]