最后我们筛选出来的特征的需要满足以下的要求:
稳定性高
当人群分布稳定、产品营销稳定、宏观经济因素稳定、监管政策稳定时,特征的分布也需要稳定。信贷模型是稳定比准确更重要的一个指标。因为不稳定,风险就不能量化跟评估,试想下如果一个模型今天对A客群放行,对B客群拒绝;如果明天突然,对A、跟B客群做放行,势必会造成后面违约损失在进一步放大,超过原先预算。模型稳不稳定,做一个分成报表监控就一目了然:
区分度高
未来的违约与非违约人群在特征上的分布需要显著不同。区分度高,就是模型KS值,需要达到一定的水平,能显著得区分去两种客群。
差异性大
不能对全部人群或绝大部分人群上有单一的取值
符合业务逻辑
特征与信用风险的关联关系要符合风控业务逻辑
关于特征工程更多的资料干货,欢迎加下官微交流下啦...