全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
6413 2
2015-10-16
悬赏 50 个论坛币 未解决
1、sas中用logsitic做回归预测时,当数值型自变量的个数超过100个时,直接上来先让每个自变量对因变量进行逻辑回归,对于不显著的一些变量进行淘汰,之后再进行剩余变量的探索和处理等的话,会不会因为某些自变量存在缺失值或者异常值得情况,使得本来不显著的变量处理之后变得显著了?

2、如果对于剩余的数值型变量进行探索时,都需要做哪些工作? 是不是每个数值型自变量都要求服从正态分布?

3、对于数值型自变量。如果取值仅仅是一些离散的数值,例如1、2、3等时,可不可以直接当做自变量放在模型中?

4、对于字符型变量,当他作为分类变量出现在class语句以后,model后面的自变量还需不需要该字符型变量?

最近学逻辑回归,感觉有好多困惑?还望大神们不吝指教,感激不尽!!!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-5-9 11:03:49
第一个问题,对于自变量的处理,比如缺失值等等。主要根据实际情况来,缺失值如果是因为数据采集过程的随机缺失,就可以用插值法填补。但如果是确实没有数据,那么要么将缺失值当成一个分类,要么就当成0,确实没有这个数据么。然后我一般是数据缺失超过50%就不用了。
第二个问题,对于量纲大,偏度,峰度大的变量,进行Ln转化。对于其他的变量,也要考察是不是极端值特别极端,小于一分位数的值,用一分位数减去三倍四分卫间距代替。
第三个问题,离散变量是可以当作逻辑回归的自变量的。当然最好按照目标连续化。
第四个问题,不需要。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-5-10 00:45:09
第一,会不会因为某些自变量存在缺失值或者异常值得情况,使得本来不显著的变量处理之后变得显著了  - 理论上存在一定可能性 但实际分析前应清洗过数据 才可以探讨显著与否
自变量处理主要涉及到异常值处理和缺失值处理,要根据实际的数据情况来判断异常情况和缺失值的填补方法

第三,如果取值的种类不多的话,建议将其作为因子型变量,即独热编码,进行回归
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群