当我们要预测某一事件或现象发生的概率p的大小,比如某一事件成功或失败的概率,以及讨论此概率的大小与哪些因素有关。但由于0«p«1,所以p与自变量的关系难以用线性模型来描述,且当p接近于0或1时,p的值的微小变化用普通的方法难以发现和处理好。这时,我们不处理参数p,而是处理p的一个严格单调函数Q=Q(P),就会方便得多。要求Q(P)在p=0或者p=1的附近的微小变化很敏感,于是令
将p换成Q,这一变换就称为Logit变换。从Logit变换可以看出,当p从0→1时,Q的值从-∞→+∞,因此Q的值在区间(-∞,+∞)上变化,这在数据处理上带来了很多方便。
当因变量是一个二元变量时,只取0与1两个值,因变量取1的概率就是要研究的对象。如果有很多因素影响y的取值,这些因素就是自变量记为x1,…xk,这些xi中既有定性变量,也有定量变量。最重要的一个条件是:
也即 是 的线性函数。满足上面条件的称为Logistic线性回归。Logistic回归假定解释变量与被解释变量之间的关系类似于S形曲线。Logistic变换的非线性特征使得在估计模型的时候采用极大似然估计的迭代方法,找到系数的“最可能”的估计。这样在计算整个模型拟合度的时候,就采用似然值而不是离差平方和。
Logistic回归对模型拟合好坏通过似然值来测度。一个好的模型应该有较小的-2LL。如果一个模型完全拟合,则似然值为1,这时-2LL达到最小,为0。Logistic回归对于系数的检验采用的是与多元回归中t检验不同的统计量,称为Wald统计量。