全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
1675 1
2021-09-04
悬赏 200 个论坛币 未解决
各位高手好!请教一个问题。
用spss软件,经过logistic回归,我们可以得到有统计意义的自变量,在logistic回归的“save”对话框中选择“Probabilities”,那么在数据的界面就可以看到自动生成的“PRE_1”这个变量,这个变量储存着每一条记录(因变量)的的预测概率。假设我们的数据中没有哑变量,那么我们自己也可以一 一算出每一个因变量对应的预测概率,用公式算:π=1/{1+e^[-(β0+β1X1+β2 X2+β3X3+...)]},这个公式可以在spss的"Transform"的“compute variable”的对话框中实现。
我的问题是,如果经过logistic回归后,有统计学意义的自变量中存在哑变量,那么就不能用π=1/{1+e^[-(β0+β1X1+β2 X2+β3X3+...)]}这个公式算出每一条记录(因变量)对应的预测概率,但在这种情况下,spss仍然后给出每一条记录的预测概率,说明spss内部有另外一个公式来计算含有哑变量的因变量的预测概率,所以,我想知道,这个公式是什么?
谢谢高手!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-9-6 09:58:56
结论摆在最前面:
SPSS只有1个公式,所有软件都一样。


你的思路有问题。首先,如果自变量中存在哑变量,则哑变量需要满足“同进同出”原则,并且哑变量背后的分类自变量的显著性,并不是哑变量自身的显著性决定的,而需要根据“同进同出”原则查看“块(Block)”统计——即分层回归之间的差异的显著性。对于线性回归,是 Delta R-square 的显著性,对于二元的 Logistic 回归,则是似然比检验的显著性。——因此,你说显著的自变量里存在哑变量,这个思路已经有问题了,应该是“某个自变量产生的哑变量(们)整体对因变量有影响"。


其次,哑变量是实实在在的数据,只不过,如果你使用了SPSS为Logistic预设的哑变量,则看不到这些哑变量,并产生错觉“有一个分类自变量,对应了4个(或者更多的)哑变量”,并在结果中使用原始的分类自变量(1个)套公式。实际上应该先计算出哑变量(对于2分类自变量仅有1个哑变量,对于C分类自变量则有C-1个哑变量),再用哑变量套Logistic的回归系数公式。


最后,对于回归类型的分析,分类自变量设置哑变量(或称虚拟化, dummy coding),以及哑变量的系数解释,都是同一个套路。
可以参考
数据分析中的哑变量问题如何处理? - SPSS论坛 - 经管之家(原人大经济论坛) (pinggu.org)
或电子书里的章节
《问卷调查与SPSS引用》电子书发布——最学术且具有可操作性的软件书 - SPSS论坛 - 经管之家(原人大经济论坛) (pinggu.org)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群