BFSI域中检查客户流失预测的完整指南
什么是支票帐户及其对金融机构的重要性?
支票账户是一种银行账户,客户可以在其中存入钱,这些钱可用于写支票,电汇,使用借记卡付款以及通过雇主直接存款获得薪金。它对存款金额的利息较低,但具有较高存款维持余额的利率较高。
如果余额低于规定的余额金额,这些帐户也会收取费用,这会给金融机构带来一些收入。金融机构关心的是与Checking产品保持积极的关系,而不是收取费用。
客户通过打开其支票帐户作为其第一个银行产品来启动与大型银行,信用合作社等金融机构(FI)的关系。然后,金融机构可以通过交叉销售其他银行产品(例如信用卡,个人贷款,抵押,存款证明,IRA等)来加强其关系。因此,金融机构需要吸引这些客户并积极保留它们。金融机构通常遵循的一种策略是预先预测未来几个月可能流失的客户。
本文将讨论在构建Churn预测模型时应考虑哪些因素,了解如何构建数据集和模型,评估模型的性能,以及金融机构如何利用模型的输出来构建一些有效的策略。使用细分
资料需求
广泛地,以下数据可用于准备模型的分析数据集:
客户人口统计–与客户相关的详细信息,例如年龄,在书上的月份,城市,性别,行业,收入
客户产品关系–有关客户持有的其他产品的信息,例如个人贷款,信用卡,抵押等。其中不包括任何信息。产品,天平,产品子类型等
产品交易–与不同产品交易相关的数据,包括存款,取款,交易价值,借方和贷方,ATM,借记卡,网上银行交易等。
客户互动–与客户通过呼叫中心,电子邮件,直接邮件等不同渠道与银行互动的数据
局数据-局数据提供了客户如何与其他金融机构打交道的属性。FICO得分,旋转产品数量(信用卡,HELOC),犯罪状态,已付款等数据均属于此类别
数字跟踪数据–如今,随着数字技术的发展,金融机构已开始跟踪其网站,博客和移动应用程序上的客户互动。可以在此上下文中使用数据点,例如页面访问,点击CTA按钮,点击流
一旦上述所有数据都可用,就可以在客户级别以每月或每周级别的粒度将其合并为主数据。合并后的主数据可能如下所示(图1.1)。
流失预测-数据
一旦准备好主数据,我们就可以继续进行时间选择,以建立模型和验证模型。我们将需要至少24个月的数据来构建和验证我们的模型。假设我们拥有2015年1月至2020年6月的可用数据。我们可以将2018年6月至2019年12月的时间用于模型构建,并将20年1月20日至6月20日的时间用于模型验证。通常,最好在最新的可用数据池上验证模型。
一旦获得了选定时间范围内的必需数据,便开始构建自变量和因变量。
流失对金融机构的含义的定义
要构建我们的因变量,我们需要定义流失对支票帐户客户意味着什么。定义可能不同,从过去12个月中在支票帐户中处于非活动状态的客户到已关闭其支票帐户的客户不等。该定义应与业务/客户的要求一致。在我们的案例中,我们可以将流失客户定义为关闭支票账户的客户。
让我们了解如何创建我们的自变量和因变量。
定义独立和因变量(目标)的静态池和时间范围
静态池是一年中的月份,用作定义我们的观察和效果窗口的参考点。在我们的案例中,静态池的一个示例是截至特定月份(201712)的所有拥有Checking帐户的客户的集合。
我们在这里定义两个窗口:观察窗口和性能窗口。创建自变量的窗口称为观察窗口,而创建目标变量的持续时间称为性能窗口。
要注意的是,性能窗口在静态池月份的前面,观察窗口在静态池月份的后面。如图1.2所示,截至201712年,我们有2个客户A和B都持有支票账户。但是,在绩效窗口中,客户A在6个月后减员了,而客户B仍在FI中。
观察窗下降图1.2定义观察和性能窗口
重要的是要注意,观察窗口和性能窗口的长度取决于许多因素,下面提到其中一些:
数据的可用性:如果数据在较小的时间内可用,我们可以减少两个窗口的长度。但是,始终希望在大量数据样本上建立模型
性能窗口期间的事件发生率:事件发生率定义为消耗的客户数量除以静态池中检查客户的总数。与6个月相比,在1个月内出差的顾客数量更少。为了建立一个好的模型,需要更高的事件发生率
数据中的季节性:与其他月份相比,一年中的某些月份损耗会更高。我们想用季节性变化来覆盖这段时期
与可能流失的客户打交道的反应:金融机构可能希望积极抑制客户流失。在这种情况下,应将“效果窗口”选择为较小,以尽早预测损耗
有时,在构建模型数据时包含多个静态池更有意义。当不同的静态池在性能窗口中具有不同的事件发生率时,这是首选方法。这将使模型能够捕获一年中不同月份的事件发生率的变化。
假设我们决定将观察窗口的长度保持为12个月,而将性能窗口的长度保持为6个月,则可以通过分析图1.3中给出的6个月滚动损耗率来选择静态池。从2015年到2020年的每个月,它都有6个月的远期损耗率。我们可以选择静态池,将其作为前两个季度和后两个季度的6个月损耗率最低和最高的月份。 2019年。根据该表,我们可以选择选择年月201912、201907、201905和201903作为我们的静态池。
月滚动损耗图1.3 6个月滚动损耗
一旦确定了合适的静态池,我们就通过为每个静态池创建自变量和因变量来开始数据准备。获得所有数据后,我们将附加所有静态池以获取最终的模型构建数据。
让我们考虑一个静态池201912,看看我们可以创建哪些变量。
生成自变量和因变量
自变量的大类可以包括人口统计,产品信息,产品交易,交互和局变量。要了解我们可以创建的变量类型,请参阅图1.4中的表。
流失预测-生成变量图1.4自变量和因变量
应用排除项和细分模型
一旦我们的分析数据集准备好构建模型,就可以应用某些排除条件来移除FI不想定位的客户。例如,可以排除排除银行新客户,因为他们在过去12个月中没有数据。其他排除项可能包括学生帐户,企业帐户等。
有时,金融机构可能会决定为这些客户创建单独的模型,而不是排除新客户。这被称为分段模型方法,其中具有不同特征的人群的各个部分针对不同模型。细分方法的一个示例是根据FICO得分创建细分。与FICO分数较高的客户相比,FICO分数较低的客户具有不同的配置文件。
模型建立与验证
在我们的案例中,因变量是具有0和1值的二进制分类变量。我们可以考虑应用Logistic回归等二进制分类
机器学习技术来构建模型。您可以在此处阅读有关Logistic回归的实现的信息。
在构建模型之前,将数据分为两部分:构建和验证样本。通常,我们以75:25的比例划分数据。我们使用75%的数据构建模型,而25%的数据用于验证。由于数据属于我们选择的静态池,因此在此阶段完成的验证也称为即时验证。当我们在不同的静态池上验证模型时,我们称其为超时(OOT)验证。OOT验证应在最新的可用数据上进行,并且模型也应在OOT的评估指标上保持一致。
有时,我们也尝试验证静态池中属于长期历史或异常事件发生时间段的模型(黑天鹅事件,例如Corona,2007年经济衰退)。此过程称为模型的回测,通常对风险空间中的模型进行此过程。
在划分数据集时,我们需要确保构建样本和验证样本具有相同的事件发生率。分层抽样用于确保构建和验证样本之间的事件发生率相等。
当构建样本中的事件发生率较小时,我们可以使用SMOTE或TomekLinks等技术,class_weight / scale_pos_weight超参数来提高事件发生率。您可以在此处阅读有关这些技术的更多信息。
影响支票帐户减员的一些手段包括:
最近3个月的平均支票余额(余额增加会导致损耗减少)
最近6个月内完成的交易总数(ATM /支票/ POS交易)(交易总数越高,损耗的机会越小)
最近3个月收取的费用总额(费用越高,损耗的机会越高)
数字服务注册总数(注册人数越高,损耗的机会越小)
支票账户类型(高级支票客户流失的机会很小)
抵押产品的存在(与客户抵押的存在会导致支票的损耗减少)
模型评估
我们可以使用多个指标(例如Kolmogorov-Smirnov统计(KS),Lift)评估模型性能,以检查与随机选择相比模型的效果如何。评估指标应在构建和验证样本上保持一致。
Logistic回归的输出是介于0和1之间的概率值,它告诉我们客户在接下来的6个月内减员的机会。我们根据概率值创建十分位数,并对每个十分位数中事件和非事件的数量进行计数。基于此,我们分别为图1.5和图1.6中的构建和测试样本生成了下表。
流失预测-模型评估图1.5在构建样本上评估模型
流失预测-验证模型评估图1.6验证样本评估模型
从以上数据可以看出,排名前3位的细分受众群覆盖了大约77%的客户,这些客户在接下来的6个月内有更高的减员机会。FI可以只针对这些客户,而不是专注于所有客户。这也将降低针对银行的目标成本。
我们可以看到该模型在验证样本上的性能也始终如一。对于构建样本和验证样本,在所有十进制上的KS和Lifts值几乎相同。KS统计量的值(所有十进制中的最大值)在两个样本的前三个十进制中。
为了将模型的性能与随机选择的性能进行比较,我们看一下Lift,图1.7给出了累积精度曲线。建立的模型在随机选择线(橙色线)上显示出明显的升幅(蓝色线)。
流失预测-CAP图1.7累积精度曲线
您可以在此处阅读有关KS,提升和累积精度配置文件的更多信息。
细分策略与模型应用
建立模型后,我们将计算当前拥有支票帐户的客户池的损耗概率。然后,我们可以根据产品持有量,最近12个月内获得的总利润以及人员流失的可能性等维度对客户进行细分。重要的是要了解每个细分市场的概况,以创建可付诸实践的策略,这些策略可证明在减少支票帐户减员方面富有成果。图1.8给出了FI可以遵循的简单细分策略。
客户流失预测-细分策略图1.8简单分割
金融机构可以针对每个细分市场采取的一些措施是-
区隔A:此区隔最忠实于金融机构。金融机构应努力使这些客户满意。可以为他们分配高级客户关系经理来处理他们的查询。
B部分:金融机构应对该部分进行有关不同产品和服务产品的教育。应努力使这些客户注册数字服务。向这些客户推销不同的产品。考虑升级其支票帐户,信用卡。
C部分:应为该部分做出大量努力以增加其钱包份额。提供产品捆绑计划以增加其余额可提高信用卡/借记卡的使用率。当观察到某些行为时,应为这些客户创建触发器以交叉销售产品并注册数字服务
细分市场D:该细分市场的产品占有率较低,但FI仍从该细分市场中赚取了很多钱。这可能是由于支票帐户所收取的费用,贷款服务费用较高。如果费用是离开金融机构的主要问题,则应努力退还费用。当这些客户的余额下降到特定阈值以下时,应将自动触发器发送给这些客户,从而避免了帐户的余额维护费用
细分市场E:该细分市场为银行带来了更高的利润,同时他们的产品持有量不错,但仍然希望吸引。原因可能是没有及时处理他们的查询,或者他们想要更好的客户服务。指派初级客户关系经理来管理他们
段F:该段应给予最少的关注,因为它们在所有参数上的表现最差。金融机构可以发送因不活动而关闭帐户的提醒
最后一步涉及在自动化环境中对模型进行操作,这将使每个月极有可能吸引并遵循每个细分市场定义的策略的客户列表
题库