全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
8861 12
2015-08-05
现在我想对数据进行无量纲化处理后,建立一个多项逻辑回归模型~但是现在有几个问题一直不能确定,希望大家能帮忙解答疑惑~多谢了!
1. 逻辑回归模型中的自变量可以存在负数吧?因为我12个变量中只有一个变量有负数,需不需要人为改为正数,方便后面可能进行的对数分析?
2. 含有负数的自变量该选择哪种无量纲化处理方法较好?同一个模型中的不同变量能使用不同的无量纲化处理方法吗?

3. 因为是通过无量纲化的数据来建立的逻辑回归模型,那么这个模型在具体使用过程中,比如预测未来某件事情发生,是否要求未来输入的自变量也必须经过同一个无量纲化公式来进行处理后,再代入模型分析?也就是说未来输入的自变量数据和建模使用的自变量数据都要与同一个参数进行加减乘除呢?



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-8-5 08:32:53
    几个问题归根结底就是讨论变量的无量纲化问题,在做这个之前可以想想为什么要对自变量做无量纲化处理呢?不会平白无故做一件事吧,要做这事总有一定的道理。我个人建议,如果原始数据分布都是符合独立同分布(分布为正态分布或者近似正态分布),同方差的,没必要对原始数据进行量纲化处理。直接以原始数据纳入模型即可。如果你想比较标准化后的回归系数,设置输出标准化后的回归系数比较即可。不过在Logistic回归分析中,由于此模型是个概率模型,所以更多的是看回归系数B的方向和EXP(B)的大小,结合这二者来解释模型的。所以更没多大必要对原始数据进行量纲化了。不过原始数据进行量纲化并不意味着不对原始数据做预处理,消除极端异常值和多重共线性。我记得在另外两个帖子里会了你关于极端异常值和多重共线性的处理。
      再回到你的问题,即使你要对原始数据进行量纲化处理。不同的量纲化方法得到的结果不一样,可能对结果没有太大的影响(我也不确定),但总归还是前后统一都用一种量纲化的方法为好的。同理,如果你通过数据构建了一个概率预测模型,要带人后来的数据对其进行预测,前后统一就好。即前面量纲化了数据,后面再带人新的数据时也用同样的量纲化方法处理,前面没处理,后面也不用处理的。
     祝好运。
      
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-5 09:27:47
xddlovejiao1314 发表于 2015-8-5 08:32
几个问题归根结底就是讨论变量的无量纲化问题,在做这个之前可以想想为什么要对自变量做无量纲化处理呢 ...
好的,谢谢大神~~
我想进行无量纲化处理的原因,是因为有些变量测量值可达十万的级别,但是坡度和高度这两个变量都不超过一百,所以纳入回归方程中就会使得有些系数变得很奇怪,出现0.00000000几的数字,所以才想标准化,使得回归系数量纲统一一些,不会那么难看~~
还有一点没弄清楚,如果回归方程是进行无量纲处理后得到的,那么带入新数据时是使用以前老的数据参数(比如平均值那些)来进行无量纲化,还是说根据新数据分布情况重新计算参数,然后再无量纲化呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-5 09:34:34
ajiao4310 发表于 2015-8-5 09:27
好的,谢谢大神~~
我想进行无量纲化处理的原因,是因为有些变量测量值可达十万的级别,但 ...
     你有些变量测量值得到十万级别,你可以将这些变量的单位改为万啊,然后不就下来了,还做量纲化干嘛啊。你说是不~如果你要做,直接用描述性统计分析里面有个勾选对话框,求得Z分数就好额,所有的指标都量纲化了。
     得到回归模型后,带入新的数据,要和老的数据一起做量纲化吧,然后再带入预测。
     
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-5 09:41:45
xddlovejiao1314 发表于 2015-8-5 09:34
你有些变量测量值得到十万级别,你可以将这些变量的单位改为万啊,然后不就下来了,还做量纲化干嘛啊 ...
感觉换单位也会有问题的~ 因为数据从0到几十万都有很多分布(我样本数量都有十几万),如果取万,那么又会出现很多0.000几的变量值了~~
还有无量纲化方法,我看了比较多的文献说最好选用均值化,这样可以保留变量变异信息?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-5 09:46:50
ajiao4310 发表于 2015-8-5 09:41
感觉换单位也会有问题的~ 因为数据从0到几十万都有很多分布(我样本数量都有十几万),如果取万,那么又 ...
看样子其实就是在数据的首尾两端存在很多的极端异常值了,你按照我上两个帖子建议的方法处理下就好额。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群