摘自《逻辑回归在个人信用评估模型上的运用》——胡滨
一、逻辑回归模型的概念
非线性概率模型,又称逻辑模型(Logistic Regression),其基本形式为一种非线性函数——逻辑函数:
其中,
为采取某选择的概率,
为自变量。这个函数具有我们希望的良好性质,它的图形是一条S型曲线。

我们可以把左端整体看作一个变量,于是便有线性回归模型:

逻辑回归模型作为一种概率模型,可用于预测某事件发生的概率,主要解决二值变量的预测或分类问题。
二、模型所解决的问题
生活中面临着许多二值(dichotomous)变量,需要去判断它的归属。所谓二值变量,是指仅取两个值的变量,可以赋予任何两个不同的记号,一般用0和1标记。
判断二值变量的归属问题,要基于概率论和统计的知识。
假定有一个二值变量y,仅取0和1两个值,我们研究的对象是probability=P(y=1),简记为p=P(y=1)。
个人信用评估领域,在已知影响消费者信用品质的各种预测指标(也称中间变量)后,需要预测申请人的信贷风险概率(或申请人的“好”与“坏”)。
申请人的“好”与“坏”(outcome flag)用y表示,y=1 表示“坏”,y=0表示“好”,现在要预测 P(y=1)。
三、模型的形式
假定有 s个开发样本,他们的预测指标X1,X2…Xn以及二值结果记号y已知,数据结构如下表所示:
逻辑回归模型的数据结构

有了上面的开发样本以后,我们就可以建立逻辑 回归模型了。
把具有下面形式的模型称为逻辑回归模型:

其中:p=P(y=1)是我们感兴趣的二值变量中 y=1发生的概率,是需要预测的。 X1, X2…Xn 是影响 y=1发生的 n 个预测变量。B0,B1,…Bn是我们需要估计的模型参数。
四、模型的解释
1、p=P(y=1)的计算
我们建立 逻辑 回归模型的最终目的是为了预测P(y=1),通过对开发样本数据的建模,待估计出 B0,B1,…Bn后,根据上面的模型表达式,对其进行简单的数学变换,就可以得到:

2、模型的预测和解释
现在有一个新的观测,他的预测变量 X1,X2,..Xn的值已知,我们把这些值带入上式就可以得到该观测的 P(y=1)。
五、模型应用研究举例
某银行在探讨消费者有关风险因素的研究中,收集了一批信贷客户的样本数据,现从中随机抽取1000例数据作为示例进行逻辑回归分析:
某银行样本数据

其中,i 表示样本编号;x1表示checking-支票;x2表示property-资产;x3表示duration-持续时间;x4表示history-信贷历史;x5表示saving-存款;y表示信用的好坏(‘好’y=1;‘坏’y=0)。借助于SAS软件,得到模型的参数估计值如下:
举例模型的参数估计值

于是我们可以得到 p=P(y=1)的计算公式。现在有一个新的申请者,他的各种指标分别为:x1=1,x2=3,x3=48,x4=2,x5=1,带入上式,得到他成为“坏”账户的概率为0.754。
帮助人大经济论坛推广,复制贴子内容(带人大经济论坛网址)并发到其他论坛和网站;或点击贴子标题后的“推广有奖”,把本贴推荐到QQ群或自己的微博(最好@人大经济论坛),然后跟贴贴出链接或截图,证明已作推广的,将获得如下论坛币的奖励!(大家一定要把群现有人数或微博粉丝人数截屏出来哦~不然只能奖励10个币哦)
活动奖励方式(同一个群或微博或网站分享多次算一次,所有截图均需显示分享人数,否则默认低档奖励):
1.凡分享的QQ群,人数在100人以下的,视情况奖励10-20论坛币;100-500人的,奖励20-50论坛币(每群限奖励一次);500人以上的奖励50-100论坛币。
2.凡分享到微博,您的粉丝在100人以下的,视情况奖励10-20论坛币;100-500人的,奖励20-50论坛币(每微博限奖励一次);500人以上的奖励50-100论坛币。
3.凡分享到其他网站(包括校内网等),帖子保留一天以上的(24小时后截图),奖励50论坛币