机器学习在网上贷款风险预测中的应用

nandehutu2022

1114

收藏 2022-06-01

英文标题：
《Machine learning application in online lending risk prediction》
---
作者：
Xiaojiao Yu
---
最新提交年份：
2017
---
英文摘要：
Online leading has disrupted the traditional consumer banking sector with more effective loan processing. Risk prediction and monitoring is critical for the success of the business model. Traditional credit score models fall short in applying big data technology in building risk model. In this manuscript, data with various format and size were collected from public website, third-parties and assembled with client\'s loan application information data. Ensemble machine learning models, random forest model and XGBoost model, were built and trained with the historical transaction data and subsequently tested with separate data. XGBoost model shows higher K-S value, suggesting better classification capability in this task. Top 10 important features from the two models suggest external data such as zhimaScore, multi-platform stacking loans information, and social network information are important factors in predicting loan default probability.
---
中文摘要：
在线领先通过更有效的贷款处理打乱了传统的消费银行业。风险预测和监控对于商业模式的成功至关重要。传统的信用评分模型在应用大数据技术构建风险模型方面存在不足。在这份手稿中，从公共网站、第三方收集了各种格式和大小的数据，并与客户的贷款申请信息数据组合在一起。建立集成机器学习模型，随机森林模型和XGBoost模型，并用历史事务数据进行训练，然后用单独的数据进行测试。XGBoost模型显示更高的K-S值，表明该任务具有更好的分类能力。两个模型的前10个重要特征表明，zhimaScore、多平台叠加贷款信息和社交网络信息等外部数据是预测贷款违约概率的重要因素。
---
分类信息：

一级分类：Quantitative Finance 数量金融学
二级分类：Risk Management 风险管理
分类描述：Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--

---
PDF下载：
-->

Machine_learning_application_in_online_lending_risk_prediction.pdf
大小:(1.25 MB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

nandehutu2022

2022-6-1 03:25:46

机器学习在在线领先信用风险预测中的应用余晓娇摘要在线领先通过更有效的贷款处理打破了传统的消费银行业。风险预测和监控对于商业模式的成功至关重要。传统的信用评分模型在应用大数据技术构建风险模型方面存在不足。在这份手稿中，从公共网站、第三方收集了各种格式和大小的数据，并与客户的贷款申请信息数据组合在一起。建立集成机器学习模型，随机森林模型和XGBoost模型，并用历史事务数据进行训练，然后用单独的数据进行测试。XGBoost模型显示更高的K-S值，表明该任务具有更好的分类能力。这两个模型的前10个重要特征表明，zhimaScore、多平台叠加贷款信息和社交网络信息等外部数据是预测贷款违约概率的重要因素。关键词：网上借贷、大数据、随机森林、XGBoost 1。导言在线领先因其向消费者和小企业提供信贷的效率更高而广受欢迎。它是被电子借贷平台技术打乱的行业之一。贷款申请决策采用电子数据驱动算法1-2自动做出。在线贷款人可以灵活地提供短期到期的小额贷款。因此，被排除在传统银行系统之外的借款人有机会获得信贷。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-1 03:25:49

在线贷款随着平台的发展而发展，将贷款人和借款人连接到更多元化的商业模式，如直接贷款、金融机构合作3。由于信用检查不足、中介不足、缺乏透明度以及典型在线借款人的固有财务状况，与传统银行消费贷款相比，在线领先承担着更高的风险4。因此，信用风险的预测和管理就显得至关重要。传统的银行贷款决策是基于信用评分，以及来自申请表和信用咨询机构5的信息。信用评分的目的是评估潜在客户的风险状况并评估其违约概率。它属于歧视和分类问题6的范围。统计模型和人工智能模型是信用评分最重要的方法。统计模型包括逻辑回归、线性规划、贝叶斯模型、决策树和马尔可夫模型7。统计模型的预测精度通常不高8。最近，人工智能技术，如神经网络、支持向量机和最近邻方法被用于分类任务9。AI方法不假设特定的数据分布，这与统计模型不同，并且对于非线性模式分类10更为优越。集成模型是最新用于信用风险预测的新技术。首先，使用不同的样本生成和训练不同的分类器。通过投票或平均将分类结果组合在一起。装袋、增压和堆垛通常用作整体方法。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-1 03:25:52

Nanni和Lumini发现集成分类器可以处理缺失数据和不平衡类，表现出更好的分类精度11。传统的信用评分模型是利用人口统计学特征、历史支付数据、信用局数据和应用数据构建的。信用评分和财务历史对成功还款有很大影响12。对于在线贷款，借款人的欺诈风险更高。因此，由于假阴性预测将导致损失，因此需要具有特别低的假阴性（II型）错误的信用风险模型。在建模、培训和测试时，应考虑可能影响还款的其他非标准潜在因素13。例如，据报道，友谊和照片等软信息会影响退款成功率14。信用数据的收集已经从被动的信息检索转变为主动的信息收集。网上借贷的评估过程比传统过程简单。然而，在做出贷款决策时，它访问的数据远远多于传统银行15。我们使用大数据技术，从公共网站和第三方收集不同格式和大小的数据，并为每个客户将其组装成一组数据。集成方法，更具体地说，随机森林和XGBoost模型是使用我们在线借贷平台的历史借款人信息数据开发和训练的。随后使用K-S曲线、准确性、AUC、预测和召回等评估指标对模型进行测试。2、数据和变量定义我们收集的用于构建信用风险的原始数据来自三个来源：来自我们贷款平台的数据、来自运营商的电话记录、第三方信贷参考公司。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-1 03:25:56

从原始数据生成额外的特征值。2.1贷款平台我公司开发了一款简单的手机应用程序，用于小额短期贷款申请，只需要借款人的国家照片ID、两个紧急联系人的姓名、手机和关系以及银行账户信息。提供7天和21天的短期贷款，包括/不包括抵押品。借款金额可为1000元，无抵押贷款为2000元，有抵押贷款为1000元至6000元。2.2电话记录电话记录数据包括从运营商网站收集的通话记录、信息、电话账单、网络流量等。表1列出了运营商网站的代表性数据。可以从这些原始数据生成更多特征。2.3第三方数据第三方信贷参考数据来自多家公司，包括91credit、铜盾、芝麻信贷、前海正信。他们提供诸如检测多笔贷款堆叠或信用黑名单数据库等产品的服务。表1：。来自不同来源的代表性原始数据。3、开发了集成方法、随机森林和XGBoost开发的模型，以预测潜在客户的违约概率，这些客户具有8990个总体特征（来自原始数据和生成的数据）。分类特征通过scikit learn的标签编码器转换为数值，用于模型训练。数据分为两个子集：70%的数据用于训练模型，30%用于测试。随机抽取训练数据和测试数据。总共211357次观察用于建模培训。90462项观察结果用于测试。未考虑缺失值的观察结果。3.1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-1 03:25:59

随机森林模型参数调整随机森林在自举训练样本上构建决策树集合。该算法在构建决策树时，通过从全属性中随机选择分割属性来降低森林中决策树的相关性。因此，它优于传统的袋装树16。对每个树的预测进行聚合。分类以多数票分配。随机森林模型的重要超参数是树数（无树）、sample\\u split、sample\\u leaf。它们定义了我们用来构建随机森林的决策树的数量。Sample\\u split定义拆分内部节点所需的最小样本数。Sample\\u leaf定义叶节点所需的最小样本数。要设置这些超参数的最佳值，请选择precision recall curve（precision=tptp+fp , 召回=tptp+fn) 将训练模型应用于测试样本时，绘制了不同超参数值的曲线图。很明显，当决策树的数量从50增加到500时，PR曲线向右移动，这表明当回忆值相同时，准确度得分更高，当准确度得分相同时，准确度得分更高。如图1所示，将决策树的数量从500进一步增加到5000不会显著地将PR曲线向右移动。sample\\u split的不同值似乎不会显著影响精确度和召回值，图2。当sample\\u leaf从1增加到3和5时，PR曲线略微向右移动，如图3所示。通过实验超参数值，no\\u trees设置为5000，sample\\u split设置为2，sample\\u leaf设置为1。图1：。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

kedemingshi

2022-6-1 03:26:02

不同树数的随机森林模型的精度召回曲线：N=50，500，5000。图2：。样本分割值为2、4、6的随机森林模型的精度召回曲线。图3：。样本叶值为1、3、5的随机森林模型的精度召回曲线。3.2 XGBoost精细参数调整XGBoost属于梯度增强算法家族。它是用c++实现的，并提供了并行树提升，与现有解决方案相比，它可以更快地提供更精确的解决方案。XGBoost模型以所有决策树预测器的相加方式进行训练。对于每棵树，可以对对象和特征进行二次采样，以防止过度拟合。对先验预测残差进行优化。在对所有前一棵树的结构进行优化后，对每棵树进行训练。在每一步中，目标函数包括一个损失函数和一个正则化项，以防止过度拟合。损失函数的泰勒展开式被提升到二阶17。XGBoost允许用户定义自定义的目标函数。XGBoost算法有很多超参数可供调整。其中，max\\u depth（树的最大深度）、eta（学习率）、colsample\\u bytree（每棵树随机采样的列的分数）、subsample（每棵树随机采样的观察值的分数）、min\\u child\\u weight（一个子树所需的所有观察值的最小权重之和），alpha（L1权重正则化项）和gamma（gamma指定进行拆分所需的最小损失减少）是最重要的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-1 03:26:05

当使用训练模型预测测试样本时，通过评估AUC（roc曲线下面积）值来设定这些参数的最佳值。AUC曲线值越高，模型对测试样本的预测效果越好。改变max\\u depth的值并保持其他超参数不变，可以看出，当max\\u depth为20时，测试集的AUC在所有测试值中排名最高。同样，其他超参数的最佳值如表2所示。可以看出，当学习率为0.01、Colsample\\u bytree值为0.7、子样本为0.7、Min\\u child\\u weight为1、gamma为0.01、alpha为0.1时，验证集的AUC值最高，为0.94064。表2 XGBoost model4的超参数调整。实验结果在训练过程结束后，绘制了随机森林模型和XGBoost模型的前10个重要特征。因此，我们可以确定决定是否应将贷款借给潜在客户的最重要因素。在8990个总功能中，zhimaScore、td\\u multi\\u platform\\u 6mon\\u 1888318\\u cnt（tongdun multi platform stacking loan in the past 6个月计数）、td\\u multi\\u platform\\u 1mon\\u 1888314\\u perc（tongdun multi platform loan in the past 1个月计数百分比）、td\\u multi\\u platform\\u 12mon\\u 18883 20\\u cnt（tongdun multi platform loan in the last 12个月计数）、Name\\u Match\\u Reliability \\u Good、，td\\u multi\\u platform\\u 7d\\u 1888312\\u perc，Name\\u Match\\u Sharing\\u Good，td\\u multi\\u platform\\u 60mon\\u 1888326\\u cnt，deviceContactCount，td\\u multi\\u platform\\u 24mon\\u 1888324\\u cnt。图4中标出了前10个重要特征的百分比。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-1 03:26:08

XGBoost型号的十大重要功能包括zhimaScore、td\\u multi\\u platform\\u 1\\uMon\\u 1888314\\u perc、deviceContactCount、td\\u multi\\u platform\\u 7d\\u 1888312\\u perc、td\\u multi\\u platform form\\u 3mon\\u 1888316\\u cnt、td\\u multi\\u platform\\u 6mon\\u 1888318\\u cnt、credooScore、deviceCall RecordCount、contact\\u no\\u rece\\u cnt\\u perc\\u 6\\u mon、td\\u multi\\u U平台\\U 12mon\\U 1888320\\U cnt。除排名外，两款车型的前十大重要功能几乎相同。一个明显的区别是，zhimaScore在随机森林模型中排名特别高，为3.67%，其他9个特征都在0.16%左右。XGBoost模型中前10个重要特性的百分比与随机林模型相比变化不大。由于在建立每个决策树时，随机森林模型和XGBoost模型都涉及随机特征采样和观察采样，因此产生的前10个重要特征可能会相应变化。随机森林模型中决策树的相关性取决于随机观测和特征采样，这决定了随机森林模型在分类中的有效性。对于随机森林模型，用于构建每个决策树的最大特征设置为默认值，即8990的平方根。这大大小于XGBoost模型中的colsample\\u bytree值。此外，在XGBoost模型中，在优化目标函数时添加了正则化，以防止过度拟合。这可能是XGBoost模型优于随机林模型的原因。图5绘制了两个模型的洛伦兹曲线。它们显示了不良案例和良好案例的累积百分比以及样本百分比。K-S值定义为不良案例和良好案例的累积百分比之间的差值。两种模型的K-S值均根据曲线计算。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-1 03:26:11

随机森林模型的K-S最大值为0.6474，XGBoost最大值为0.7203。由于K-S衡量的是不良案例和良好案例的累积百分比之间的距离，因此K-S值越高，模型在区分不良案例和良好案例方面就越好。通过查看经过训练的模型大小，XGBoost模型的模型大小也比随机森林模型小。显然，XGBoost模型在这项分类任务中的表现优于随机森林模型。3.67%0.18%0.16%0.16%0.16%0.16%0.15%0.15%0.15%00.0050.010.0150.020.0250.030.0350.04（a）随机森林模型十大重要特征0.32%0.23%0.23%0.20%0.16%0.15%0.14%0.14%00.00050.0010.00150.00250.00250.0030.0035（b）XGBoost模型十大重要特征SFIG。（a）随机森林模型的十大重要特征。（b） XG增压模型图5（a）。随机森林模型的K-S曲线。（b）。XGBoost车型5的K-S曲线。结论在本手稿中，结合内部app数据和外部第三方信用参考和运营商数据，训练了随机森林模型和XGBoost模型，以预测潜在借款人的信用违约概率。通过调整超参数对每个模型进行优化，并用测试数据进行评估。绘制了两个模型的前10个重要特征并进行了排名。与随机森林模型相比，XGBoost模型显示出同质特征的重要性百分比。这两个模型都表明，zhimaScore、多平台叠加贷款信息和社交网络信息等外部数据是预测贷款违约概率的重要因素。两个模型的K-S值表明，XGBoost的坏案例和好案例的分类更好。6、文献（1）Stalnaker S.P2P经济来了。哈佛巴士修订版。2008, 86(2):17-45. （2） Berger SC，Gleisner F。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-1 03:26:15

电子市场中金融中介的出现：在线p2p借贷案例。Bus Res，2009年；2（1）：39-65（3）Wang，H.和M.E.Greiner，“Prosper:eBay for Money in Lending 2.0”，信息系统协会通讯，第29卷，第1期：243-2582011（4）Yan Jiaqi，Wayne Yu，J.Leon Zhao。金融创新（2015）1:19 DOI 10.1186/s40854-015-0018-1（5）Lyn C.Thomas。《国际预测杂志》16（2000）149-172（6）R.A.Johnson和D.W.Wichern，“应用多元统计分析”，第4版，Prentice Hall，Upper Saddle River，1998（7）李晓林，余忠。《国际智能科学杂志》，2012年，21181-189（8）L.C.Thomas，“信贷和行为评分调查：预测向消费者贷款的金融风险”，《国际预测杂志》，第16卷，2000年第2期，第149-172页。内政部：10.1016/S0169-2070（00）00034-0（9）D.Zhang、H.Huang、Q.Chen和Y.Jiang。“信用评分模型比较”第三届自然计算国际会议2007（10）Ahmad Ghodselahi和Ashkan Amirmadhi。《国际建模与优化杂志》，第1卷，第3期，2011年8月（11）L.Nanni和A.Lumini，“破产预测和信用评分分类器集成的实验比较”，专家系统与应用，第36卷，第2期，2009年，第3028-3033页。内政部：10.1016/j.eswa。2008.01.018（12）William，A.、E.Liran和J.Levin，“次级贷款中的流动性约束和不完善信息”，《美国经济评论》，第99卷，第1期：49-84，2009（13）Lyer，R.、A.I.Khwaja、E.F.P.Luttmer和K.Shue，“在新的信贷市场中筛选：个人贷款人能否推断借款人在对等贷款中的信誉？”香港中文大学教师研究工作论文系列，John F。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-1 03:26:18

哈佛大学肯尼迪政府学院，2009年1月1日至42日（14）Freedman，S.和G.Z.Jin，“社交网络能为点对点借贷解决信息问题吗？来自Prosper.com的证据”网络研究所工作论文，2008年1月1日至63日（15）Wang H，Chen K，Zhu W，Song Z（2015）“P2P借贷过程模型”，《Financ Innov》1（1）：1-8。（16）Breiman，L.（2001）。随机森林，机器学习，45，5-32。（17）Sunil Bhatia，Pratik Sharma，Rohit Burman，Santosh Hazari，Rupali Hande。国际计算机应用杂志（0975-8887）第161卷第11期，2017年3月。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群