很喜欢这里,看网友的帖子学到了不少知识!
我们想利用Logistic回归分析对我国中小企业的信用风险进行实证研究. 因变量Y 表示企业是否违约:违约企业=0,正常企业=1.自变量是企业的20个财务指标。
我有以下几个问题搞不明白:
1、 变量一定要与因变量正向相关吗?为什么?
2、自变量的筛选:
20多个指标间由于存在较严重的多重共线性,但我不想使用SPSS的逐步剔除法,也不想使用因子分析或者主成分分析方法,我想Logistic回归分析之前筛选自变量,把多重共线的自变量剔除。有以下两种方法:
(1) 某个自变量Xj与其余的自变量进行回归,如果判定系数很大,F检验显著,则Xj可用其他自变量的线性组合表出,即Xj与其他自变量多重共线。那么将Xj从自变量中排除。
(2) 用判别分析法,把判别系数小的变量剔除。
哪个方法比较科学严密,请有经验的同志解答一下。