评分卡的建模流程
模型的建立包含:提出问题、收集数据、数据清理、变量转换、客户分群、变量筛选、模型的建立与验证。
1.       提出问题此时需要明确要解决的问题,也就是建模的目的和定义好坏客户。信用评分卡的目的通常时识别出逾期率高的用户。
(1). 定义好坏客户的因素:
在明确要解决的问题之后,需要针对我们提出的问题制定好坏客户的定义。其定义需满足:稳定,有连贯性同时简单易解释。在定义好坏客户时至少需考虑以下几个因素:
1)  客户行为。
2)  数量是否能满足建模需求(训练集中坏样本数量如果太少,会影响模型效果的稳定性)。
3)  用户自愈的比例和恶化比例(即被定义为坏客户的人中有多少人在最终完成还款,和未被定义为坏客户的人中多少人变坏)。
(2). 定义好坏客户的观察范围
通常在使用逾期行为划分好坏客户时,使用的是用户历史上的最长逾期时间。在定义坏客户时,针对客户信用历史的观察范围分为三种情况:
1)  仅根据本产品的还款表现划分好坏用户:
优点是实现容易,但缺点是没有对行内信息进行充分利用,同时风险较高。
2)     根据客户在同一银行中不同产品的还款表现划分好坏用户:
这主要考虑到,一个客户可能同时通过多个产品在同一家银行贷款,如果客户的还款能力和意愿都正常,则多笔贷款都应能正常还款,反之如果其中有一笔变为不良贷款,则其余贷款在未来也很可能会无法正常履行还款义务。
使用这种标准优点是能够充分利用行内信息,但缺点需对行内数据进行整合,实现较困难。
3)  客户在所有银行所有产品中的表现划分好坏用户:
与上一种标准考虑的情况类似,用户可能在多个银行通过多个产品贷款,如果有任意一笔贷款变为不良贷款,其他贷款就很有可能变为不良贷款。由于需要使用多个银行的数据,因此只能通过客户的征信记录中的还款情况,来判断客户类型,工作量较大。同时由于客户在选择逾期时,对待不同银行不同产品的态度很可能不同,是否需要评判以及如何评判某一银行某种产品在客户心中的重要程度,需要慎重考虑。
2.       收集数据在了解了我们要解决什么样的问题后,就可以开始有针对性的收集数据,此时需要对模型的样本窗口进行设计,样本窗口包含观察窗口和表现窗口两部分。
(1).  观察窗口:
提供了模型中的自变量,也就是X的取值。在理想状态下信用评分卡的观察窗口最好包含一个完整的经济周期,此时可以了解客户在社会经济良好和社会经济恶化时的不同表现。但实际中我们会受到两个条件的制约:1).客户群体中多数人不具备如此长的信用历史,进而造成建模样本不足。2).监管规则、行内政策很可能发生过变化,使得前后的两个时期客户的历史表现与其对应的还款能力与意愿之间的关系也可能发生变化。
(2).  表现窗口:
提供了模型中的因变量,也就是Y的取值,一般以这一时期内客户最坏的逾期情况判断Y的取值。
通常情况下信用评分卡的表现窗口最好能够覆盖整个产品周期,但对于一些周期过长的贷款产品如房贷等,由于覆盖整个产品周期需要等待的时间过长,同时期间市场环境和人员的变动是必然现象,因此必须对表现窗口进行缩减。
此时表现期过短会使得更多的坏账未能被标记出来,造成样本中坏账数量的减少,以及模型对真正的坏账不敏感(因模型只能判断表现期内用户的逾期概率,对表现期外变为坏客户的人的判断能力会下滑)。而表现期过长会使得等待的时间太长,延长建模周期。
此时一般会根据当前产品大部分坏账的爆发时间,来确定表现窗口的长短。
3.       数据清理通常数据清理所花时间占到整个建模时长的60~%80%,是整个建模过程中最耗时的部分。数据清理包含两个方面,一是针对特征进行清理,二是针对样本进行清理。
(1).  清理特征步骤:
通过收集数据,我们可以得到目标客户的众多特征,但并非所有特征都需要进入建模流程,或需要处理才能进行建模。在建模之前,我们可以通过以下几个方面对特征进行筛选。
1)  需要对数据有所了解。此时可以先从统计指标入手,了解数据的极值、四分位数、中位值、均值、众数、空缺值数量等。随后根据业务经验进行分析,如果数据与业务经验差别过大,则很可能是在数据收集环节出了问题,需要进行仔细排查。
2)  删除缺失值较多的特征和极值异常的特征,此类特征包含的信息不全或存在特殊性不够典型,如果使用很有可能使得模型结果存在偏差。
3)  处理缺失值,常用方法有使用均值、众数、中位数等进行填充,或在进行WOE转换时将缺失值看做单独一类。
(2).  清理样本:
在建立信用评分卡时时为确保模型效果,使用的样本需具有典型性,因此我们需要将非典型的样本去除。如:欺诈用户、灰客户、不活跃用户等。
4.       变量转换一般会将自变量进行WOE转换。这种转换的目的是使得自变量与因变量具有更强的线性关系。其原理是为连续变量分段,并计算各段内信息熵(目标客户与非目标客户占各自总量的比例的商的对数),因此需要知道客户的好坏属性。在进行转换时需注意:
(1).  WOE需满足单调性:
以收入为例,通常情况下一个人的收入越高,其还款能力和还款意愿也就越强,因此在分段时连续几段的WOE值应当具有单调性。
但使用实际数据时,当WOE可能不单调。此时可以改变特征的分段,对其中部分分段进行合并或拆分,使其最终满足单调。
(2).  样本数量:
各分段内的样本数量不能太少,否则此段的好坏客户比例可能与真实情况差别较大,进而造成WOE值的偏差较大。
(3).  WOE转换的优点:
1)  增强了自变量与因变量的相关性,提高模型效果。
2)  增强模型鲁棒性,由于WOE是使用各段的信息熵代替原始数据,因此对特征的极端值不敏感。
3)  将缺失值单独分为了一类,减少了使用均值、中位数、众数等进行替代造成的误差。
(4).  WOE转换的缺点:
其计算方法基于已知的坏账与好账,与y有必然的联系,因此有用因变量预测因变量的嫌疑。
5.       客户细分客户细分包含建模前客户细分和建模后客户细分,建模后客户细分主要是指根据模型结果,针对不同客户制定不同从策略。而建模前客户细分则是将有明显差异的用户区分开,分别建立评分卡,以提高模型的预测能力。
目标客户中包含多个群体,不同群体的差异性很大,而相同群体内部的同质性很强。因此不同群体中每个自变量对因变量是否存在影响,以及影响多大可能不同,需要单独分析,因此需要使用不同的评分卡。这么做的分前提是,需要有足够的数据支持客户细分,即每个评分卡的训练集样本都不能太少,否则会影响模型效果。(当数据较少时,我们可以只建一个模型并将客户细分的标准作为哑变量加入模型)
6.       变量筛选经过以上几步后,样本可使用的特征依然较多,而且这些特征不一定都适合用于构建逻辑回归模型,因此需要对变量进行进一步筛选。常用的筛选方法有:
(1).  IV值:
在筛选变量时,一般将IV值看做最主要的标准。其代表了此自变量对好坏客户的区分程度,其越大表示该变量区分好坏客户的能力越强。
(2).  WOE单调性:
由于在做分箱时,我们通常只关注了训练集中WOE的单调性,但并没有考虑其他集合,因此最好看一下此分箱策略在验证集上的效果(包括变量稳定性,以及WOE的单调趋势)。
(3).  决策树和随机森林等:
由于树形模型在建模过程中是以提高节点中样本的纯净度为目标进行分裂的,所以用于分裂的自变量,对因变量都具有较好的区分能力。通过自变量用于分裂的先后顺序以及使用次数,可对自变量的重要性进行排序。进而可以挑选一部分我们认为重要的变量。
(4).  变量聚类:
模型要对客户进行准确预测就需要使用全面的信息。如果仅凭IV值大小和决策树的变量重要性排序结果进行筛选,可能会使得变量信息较为单一。因此可以通过变量聚类找出包含信息相近的自变量,之后可以在每一类中选择3~4个变量。这样可以使筛选后的变量所包含的信息更全面。
(5).  相关性:
在逻辑回归中,如果自变量之间存在相关性会使模型估计失真,因此要避免自变量之间存在相关性,在筛选的时候尽量将相关性大的自变量剔除。相关性大小无同一标准,一般根据需要可使用0.3或0.5作为筛选阀值。
(6).  方差膨胀因子:
与相关性类似,是为防止模型的自变量存在多重共线性(也是自变量之间存在相关性的一直表现)而设置,一般会与相关性一起使用,进一步避免多重共线性的发生。
(7).  业务经验:
由于模型最终会使用到实际业务中,因此变量筛选既要关注统计指标,同时也要注意业务上的可解释性。
(8).  5C原则:
目前银行业广泛认可的信用风险评价指标,主要包含5个方面的信息:
1)  信用与声誉(诚实、道德声誉)Creditability
2)  现金流(流动资金、偿还能力)Capacity
3)  已投入资金(净资产价值)Capital 
4)  抵押(和损失程严重度有关)Collateral
5)  自身贷款条件(经济条件,受经济波动影响程度)Condition
以上5个方面被称之为5C原则,任何最终进入模型的变量都应至少能够归结到其中一个方面。
7.       模型的建立与验证由于模型上线后将会应用于建模样本外的数据,因此在评价模型时,如果只看其在建模样本上的表现,作为其最终表现会有所偏差。为更加准确的评价模型效果一般会将目前所掌握的样本划分为不同集合。划分主要有两种方式ITV与OTV。
1)  ITV:不同集合都是同一段时间内的数据,两者不按时间划分,而是按比例划分,如8:2、7:3等。其优点是:相同建模周期中,训练集较大,训练集一样时,建模周期短。缺点是:验证集与训练集在同一段时间,对以后一段时间的预测能力是否满足需要,无法得知。
2)  OTV:不同集合不在同一段时间内,其优点是:可以较为准确的估计模型对以后一段时间的预测能力。缺点是:建模对数据的利用不如ITV,且对数据积累的时间要求高。但如果数据允许最好使用OTV。
(1).  模型评价指标:
1)  ROC与AUC:ROC是目前评价模型的重要指标,其纵轴大小代表了真正逾期的人数占可能逾期的总人数的比例,横轴代表了被误判为逾期的人数占可能逾期的总人数的比例。ROC的优点是与实际使用时的阈值无关。但缺点是AUC相同的ROC曲线的具体样子可能不同,评价模型时除了看AUC值,还需根据业务需要结合具体的ROC曲线进行选择。
2)  KS:纵轴描述的是好坏客户的百分比,横轴描述的是逾期概率,其中好坏客户的百分比相差最大的值,就被称为KS值,其优点是:没有任何统计分布的假设,在使用起来非常的易用。同时这个指标代表了模型区分好坏客户的能力,这与信用风险模型的目的相同。缺点:i). KS值仅是描述最理想情况下的预测能力(可能与操作门槛不同),ii).具体分箱对模型的KS值影响很大。
3)  AIC:是衡量逻辑回归的标准拟合优良性的一个指标,常用于比较两个模型,描述丢失掉了多少信息(与十全十美的模型相比),但其绝对值没有意义,主要用于多个模型之间的比较。AIC值越小代表被模型忽略掉的信息越少,模型也就越好。
4)  交换集:在模型迭代时,除了比较以上的指标之外,还需要适用两代模型在同一批样本上进行测试,比较两个模型预测结果不同的那部分样本。如果被新模型新识别的用户的逾期率,高于被老模型识别但未被新模型识别的用户的逾期率,则代表新模型优于老模型有迭代意义,反之则无迭代必要。
(2).  建立评分卡:
逻辑回归模型可以给出每个用户为坏用户和好用户的概率之比的对数,也被称为ln(odds),这一数字在实际业务使用中并不方便,因此我们可以将使用一定的分值表示。具体方法是:
1)  人为设定梯度PDO指标和基准分数,PDO的意义是odds每提升一倍,分数应提升多少。为方便计算可将其看为odds=2时比odds=1时分数提升的大小。
2)  设odds=1时用户的评分为P0,此时odds=2时用户的评分即为P0+PDO。可得:P0 =A+Bln(1);P0+PDO =A+Bln(2)
3)  通过上式,可知道A、B值,进而可计算每个用户的得分。
评分卡的优点有:
1)  逻辑回归模型的结果阈值为-∞到+∞,不方便实际应用,而评分卡的阈值与PDO指标和基准分数,但一般都在几百左右。
2)  计算简单不需要经过模型计算,根据累加每个特征值对应的WOE*特征对应系数*B再加上A,就可计算得出。