全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
7168 3
2017-03-27
目前调研了395份问卷,准备写一篇论文。因为我是会计专业的,在统计学知识方面相对薄弱,所以请教了一个数学专业的同学。他告诉我,一般程序是:
1在还没有做回归的时候,根据均值的t检验,通过判断因变量取不同值时,自变量均值是否有显著区别,来剔除变量。
2做相关系数矩阵,若两个变量的r值绝对值较大,则剔除一个。
3做回归。

我的疑问是:
1在张文彤老师的书上介绍,对变量的筛选的影响强度,由强到弱为:专业判断、多变量分析、单变量分析。而上述方法第1、2步骤,仅根据单变量分析就剔除了变量,并没有给予专业判断和多变量分析的机会,是否合理?
2我用SPSS做logistic回归,会出现迭代次数达到20次,停止迭代,这个会影响回归的准确性么,为什么会出现这个说明?
3对于多分类的协变量,把它设置为分类变量后,对该变量赋值为为1234和ABCD,回归结果有区别吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-3-27 11:23:43
     做回归分析我一般的逻辑是:1)变量分布趋势和相关性基本诊断。做做散点图,看看变量是否存在极端异常值,做做变量间的相关分析,看看变量间是否存在严重的多重共线性问题。极端异常值和严重的多重共线性问题都会影响最终结果的稳健性;2)自变量和因变量分别单独回归,看看显著性。单独做自变量和因变量回归分析都不显著的变量,如果不是理论上特别需要,一般不纳入模型;3)所有变量一起纳入做回归。最后判定结果。
   回到你的问题。logistic回归分析迭代20次很正常,只要模型收敛即可;对于多分类的自变量,要处理为虚拟变量再纳入模型。只有多类别自变量如何编码没有影响。即1234和ABCD这两种编码方式对结果都没影响。祝好运~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-3-27 13:14:04
xddlovejiao1314 发表于 2017-3-27 11:23
做回归分析我一般的逻辑是:1)变量分布趋势和相关性基本诊断。做做散点图,看看变量是否存在极端异常 ...
我大概有思路了,谢谢指点!
您的指导里面,有几个地方还有点疑问:

1自变量里面的分类变量是不是没必要做散点图?毕竟就那么几个选项,一般没有什么极端异常值。
2用相关分析来排除严重的多重共线性问题,是不是具体操作就是做相关系数矩阵,根据|r|来判断?还是说,一般还会采用别的办法
3自变量和因变量分别单独做回归是指一次只取出一个自变量来和要研究的因变量进行回归,然后把每一个自变量挨个过一遍么?那此时是根据wald统计量判断么
4模型是否收敛是根据哪里的结果判断的?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-3-7 11:06:58
注意事项:
Y对应的数字一定只能为0和1;
如果X为定类数据,通常情况下需要将X进行虚拟(哑)变量设置【SPSSAU中生成变量功能中有】。
如果X为定类数据,此时可以考虑使用交叉卡方分析去研究X和Y的关系。
如果X非常多(比如超过10个),此时可以先对定类的X与Y进行卡方分析,对定量的X与Y进行方差分析(或t检验),先看有没有差异关系,将最终有差异关系的X放入二元Logit回归模型中,这样X会较少,并且X与Y均有差异关系,也更可能有影响关系,此时二元Logit回归模型的预测准确率会更高。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群