本文分享常见使用的回归,以及如果分析时出现问题的处理办法 。先上图,一图说明本文章的主题。

1回归如何选择?
回归有很多种,但最常见使用的就是上图中标识的回归方法。回归研究X对于Y的影响,至于回归方法的选择上,关键在于因变量Y的数据类型,如果Y是离散数据,则统一应该使用logistic回归,但具体logistic回归又分成三种类型。如果因变量Y提连续数据(通常也说Y是正态分布时),则应该使用线性回归(有时也称OLS最小二乘法回归)。还有一种较为特殊而且使用较少的回归叫Poisson回归,如果Y符合泊松分布此时则应该使用Poisson回归。整理一个表格更好理解:

2logsitic回归的详细说明
关于logistic回归,再整理一个表格如下进行说明:

如果因变量仅包括两类,比如愿意和不愿意,那么应该使用二元Logistic回归;如果因变量的类别超过两类,比如因变量为手机品牌选择偏好(手机品牌选择偏好分为三类,分别是Iphone,三星和小米),此时应该使用多分类Logistic回归。如果因变量的类别超过两类且有序,比如Iphone手机偏好情况(Iphone手机偏好情况分为三类分别是:不喜欢,喜欢和非常喜欢),此时可使用有序Logistic回归。
特别说明的是:如果是二元logistic回归,其只有两个类别,一般情况下都只能用数字0和1表示,比如SPSSAU软件就是这种规范要求。另外,多分类Logistic回归分析和有序Logistic回归分析这两个方法上,很多时候可以混用,因为只要研究人员把自己的因变量Y看作成类别数据,那就可以使用多分类logistic回归,而且很多时候也是使用多分类logistic回归分析,原因在于有序logistic回归分析需要满足一个前提条件是“平行性检验”,此条件相对较难满足,所以现实中使用多分类logistic回归分析的情况较多。
以及如果是多分类logistic回归的分类类别过多时,一般需要对类别进行组合成少数几个类别,然后再进行研究。
3线性回归出现问题如何处理?
线性回归有时也称OLS回归、最小二乘法回归等等。线性回归是计量分析,社会分析里面使用最多的一种研究方法。但是其有着很多限制条件,会出现很多问题,比如 正态性问题,共线性问题,和异方差问题。
线性回归要求因变量Y值满足正态性分布要求,如果不满足如何办呢?一般情况下可对因变量进行数据转换处理,如果求对数,或者开根号等等,让数据尽可能的满足正态性要求。
社会学研究中共线性问题很多,主要是由于自变量X之间的相关关系非常强,共线性问题会干扰到回归系数的显著性,非常严重,一定需要重视,共线性问题可通过VIF值进行判断,VIF值小于5一般就说明没有共线性问题。
如果出现共线性问题,有三种解决办法。一是手工把某些自变量从模型中移除掉;这种办法属于尝试性质的,需要来回对比。第二种办法是使用逐步回归,其实逐步回归也是线性回归,无非就是让模型自动剔除掉有问题的自变量而已。这种办法相对比较好,但是有一个问题是,有时候我们并不想让某个自变量从模型中移出去,但却被自动化的移除出去了。第三种处理办法是岭回归,岭回归并不会移除掉自变量,此种办法的处理较为复杂,但对于共线性问题处理较为严谨科学。
除了上述的共线性问题,如果是计量研究中,还会出现异方差问题。异方差问题在经济金融相关专业中非常在乎,而且一定需要进行处理,一般是使用white检验和BP检验进行判断是否有异方差问题。
如果出现异方差问题,一般有两种处理办法,一是使用Robust稳健标准误回归方法以减少共线性问题;第二种办法是使用加权回归,比如将残差平方的倒数作为权重项,意味着残差绝对值越大时,其权重越低,以减少异方差问题。当然具体应该如何使用加权WLS回归解决异方差问题,一般以文献为准,残差平方的倒数作为权重项进行加权WLS回归处理异方差问题是一种常见的方案;还有FGLS方案等。
特别提示:上述中提及的加权WLS回归,其实还是线性回归,无非是多出一个加权权重项而已,所以又称之为加权WLS回归。
4自变量X的数据类型问题?
在分析的自变量X的个数可以是多个,Y的个数一般是一个。对于自变量X,需要注意一点即虚拟变量(哑变量)设置问题。
如果自变量是分类数据,比如性别,包括男和女,这种情况下就需要进行虚拟变量设置。