全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
13933 9
2017-08-31
最近在做多分类logistic回归,遇到自变量太多的问题(30个自变量),自变量大多都是离散型变量,自变量之间的相关关系也不是很强,没法用主成分分析或因子分析降维,请问这个时候还有没有其他的降维办法?还是说可以不用降维直接做模型?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-8-31 16:02:59
一般的话变量分别先做一下检验吧,自变量是分类的话做卡方,连续的做t-test,先筛去绝对没有相关性的,其他的一起做logstic,后面的话只能慢慢调试,用模型里面的自动筛选选项都做一次,试出最佳的组合后,如果继续做交叉检验的话可以用树模型试出交叉项,最后整合起来就差不多OK
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-8-31 19:11:22
coursera上面的Andrew Ng机器学习课程里面有一节Dimensionality Reduction,讲的就是降维的方法。对变量之间的关系也并没有要求。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-9-1 09:35:52
如果模型不是做预测,那么分别将这些自变量单独与因变量做回归分析,不显著的在最后的模型中不纳入就行了。祝好运~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-9-1 11:24:49
通过逐步回归自动选择也是个办法
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-9-1 13:48:01
xddlovejiao1314 发表于 2017-9-1 09:35
如果模型不是做预测,那么分别将这些自变量单独与因变量做回归分析,不显著的在最后的模型中不纳入就行了。 ...
谢谢!因为是mlogit模型,有些变量在第一个模型中不显著,但在其他模型中显著,请问这种情况是保留还是剔除呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群