数据分箱通常是指对连续变量进行区间划分,将连续变量划分成几个区间变量,主要目的是为了避免“过拟合”,使评分结果更具有稳健性和预测性。这里有个典型的例子就是:用决策树进行评分看起来效果不错,但往往都会因为”过拟合”,模型无法实际应用。
常用的变量分箱法是WOE法,分两步:
(1)先对连续变量平均细分成足够多的分箱,FICO称之为Fine Bining(细分箱)。
(2)对相邻分箱两两合并计算比较,按照“WOE损失最小”的原理,来确定合并哪两个相邻分箱,直至达到预先设定的阈值,这一步FICO称之为Coarse Bining(粗分箱)。
判断分箱结果是否复合实际意义、有效,通常最直接的方法,就是看:Coarse Bining分箱结果图是否有一定的趋势,最常见的就是直线型、U型,因为一个输入变量对输出变量的关系往往都是有一定规律性的。
譬如:收入越高,信用越高;欠款次数越多,信用越低。
用FICO的Model Builder是可以很方便的处理,可以做Logistic模型、Divergence模型,如下是相关截图: