全部版块 我的主页
论坛 经济学人 二区 外文文献专区
974 11
2022-06-01
英文标题:
《Machine learning application in online lending risk prediction》
---
作者:
Xiaojiao Yu
---
最新提交年份:
2017
---
英文摘要:
  Online leading has disrupted the traditional consumer banking sector with more effective loan processing. Risk prediction and monitoring is critical for the success of the business model. Traditional credit score models fall short in applying big data technology in building risk model. In this manuscript, data with various format and size were collected from public website, third-parties and assembled with client\'s loan application information data. Ensemble machine learning models, random forest model and XGBoost model, were built and trained with the historical transaction data and subsequently tested with separate data. XGBoost model shows higher K-S value, suggesting better classification capability in this task. Top 10 important features from the two models suggest external data such as zhimaScore, multi-platform stacking loans information, and social network information are important factors in predicting loan default probability.
---
中文摘要:
在线领先通过更有效的贷款处理打乱了传统的消费银行业。风险预测和监控对于商业模式的成功至关重要。传统的信用评分模型在应用大数据技术构建风险模型方面存在不足。在这份手稿中,从公共网站、第三方收集了各种格式和大小的数据,并与客户的贷款申请信息数据组合在一起。建立集成机器学习模型,随机森林模型和XGBoost模型,并用历史事务数据进行训练,然后用单独的数据进行测试。XGBoost模型显示更高的K-S值,表明该任务具有更好的分类能力。两个模型的前10个重要特征表明,zhimaScore、多平台叠加贷款信息和社交网络信息等外部数据是预测贷款违约概率的重要因素。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-1 03:25:46
机器学习在在线领先信用风险预测中的应用余晓娇摘要在线领先通过更有效的贷款处理打破了传统的消费银行业。风险预测和监控对于商业模式的成功至关重要。传统的信用评分模型在应用大数据技术构建风险模型方面存在不足。在这份手稿中,从公共网站、第三方收集了各种格式和大小的数据,并与客户的贷款申请信息数据组合在一起。建立集成机器学习模型,随机森林模型和XGBoost模型,并用历史事务数据进行训练,然后用单独的数据进行测试。XGBoost模型显示更高的K-S值,表明该任务具有更好的分类能力。这两个模型的前10个重要特征表明,zhimaScore、多平台叠加贷款信息和社交网络信息等外部数据是预测贷款违约概率的重要因素。关键词:网上借贷、大数据、随机森林、XGBoost 1。导言在线领先因其向消费者和小企业提供信贷的效率更高而广受欢迎。它是被电子借贷平台技术打乱的行业之一。贷款申请决策采用电子数据驱动算法1-2自动做出。在线贷款人可以灵活地提供短期到期的小额贷款。因此,被排除在传统银行系统之外的借款人有机会获得信贷。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 03:25:49
在线贷款随着平台的发展而发展,将贷款人和借款人连接到更多元化的商业模式,如直接贷款、金融机构合作3。由于信用检查不足、中介不足、缺乏透明度以及典型在线借款人的固有财务状况,与传统银行消费贷款相比,在线领先承担着更高的风险4。因此,信用风险的预测和管理就显得至关重要。传统的银行贷款决策是基于信用评分,以及来自申请表和信用咨询机构5的信息。信用评分的目的是评估潜在客户的风险状况并评估其违约概率。它属于歧视和分类问题6的范围。统计模型和人工智能模型是信用评分最重要的方法。统计模型包括逻辑回归、线性规划、贝叶斯模型、决策树和马尔可夫模型7。统计模型的预测精度通常不高8。最近,人工智能技术,如神经网络、支持向量机和最近邻方法被用于分类任务9。AI方法不假设特定的数据分布,这与统计模型不同,并且对于非线性模式分类10更为优越。集成模型是最新用于信用风险预测的新技术。首先,使用不同的样本生成和训练不同的分类器。通过投票或平均将分类结果组合在一起。装袋、增压和堆垛通常用作整体方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 03:25:52
Nanni和Lumini发现集成分类器可以处理缺失数据和不平衡类,表现出更好的分类精度11。传统的信用评分模型是利用人口统计学特征、历史支付数据、信用局数据和应用数据构建的。信用评分和财务历史对成功还款有很大影响12。对于在线贷款,借款人的欺诈风险更高。因此,由于假阴性预测将导致损失,因此需要具有特别低的假阴性(II型)错误的信用风险模型。在建模、培训和测试时,应考虑可能影响还款的其他非标准潜在因素13。例如,据报道,友谊和照片等软信息会影响退款成功率14。信用数据的收集已经从被动的信息检索转变为主动的信息收集。网上借贷的评估过程比传统过程简单。然而,在做出贷款决策时,它访问的数据远远多于传统银行15。我们使用大数据技术,从公共网站和第三方收集不同格式和大小的数据,并为每个客户将其组装成一组数据。集成方法,更具体地说,随机森林和XGBoost模型是使用我们在线借贷平台的历史借款人信息数据开发和训练的。随后使用K-S曲线、准确性、AUC、预测和召回等评估指标对模型进行测试。2、数据和变量定义我们收集的用于构建信用风险的原始数据来自三个来源:来自我们贷款平台的数据、来自运营商的电话记录、第三方信贷参考公司。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 03:25:56
从原始数据生成额外的特征值。2.1贷款平台我公司开发了一款简单的手机应用程序,用于小额短期贷款申请,只需要借款人的国家照片ID、两个紧急联系人的姓名、手机和关系以及银行账户信息。提供7天和21天的短期贷款,包括/不包括抵押品。借款金额可为1000元,无抵押贷款为2000元,有抵押贷款为1000元至6000元。2.2电话记录电话记录数据包括从运营商网站收集的通话记录、信息、电话账单、网络流量等。表1列出了运营商网站的代表性数据。可以从这些原始数据生成更多特征。2.3第三方数据第三方信贷参考数据来自多家公司,包括91credit、铜盾、芝麻信贷、前海正信。他们提供诸如检测多笔贷款堆叠或信用黑名单数据库等产品的服务。表1:。来自不同来源的代表性原始数据。3、开发了集成方法、随机森林和XGBoost开发的模型,以预测潜在客户的违约概率,这些客户具有8990个总体特征(来自原始数据和生成的数据)。分类特征通过scikit learn的标签编码器转换为数值,用于模型训练。数据分为两个子集:70%的数据用于训练模型,30%用于测试。随机抽取训练数据和测试数据。总共211357次观察用于建模培训。90462项观察结果用于测试。未考虑缺失值的观察结果。3.1.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 03:25:59
随机森林模型参数调整随机森林在自举训练样本上构建决策树集合。该算法在构建决策树时,通过从全属性中随机选择分割属性来降低森林中决策树的相关性。因此,它优于传统的袋装树16。对每个树的预测进行聚合。分类以多数票分配。随机森林模型的重要超参数是树数(无树)、sample\\u split、sample\\u leaf。它们定义了我们用来构建随机森林的决策树的数量。Sample\\u split定义拆分内部节点所需的最小样本数。Sample\\u leaf定义叶节点所需的最小样本数。要设置这些超参数的最佳值,请选择precision recall curve(precision=tptp+fp  ,    召回=tptp+fn)  将训练模型应用于测试样本时,绘制了不同超参数值的曲线图。很明显,当决策树的数量从50增加到500时,PR曲线向右移动,这表明当回忆值相同时,准确度得分更高,当准确度得分相同时,准确度得分更高。如图1所示,将决策树的数量从500进一步增加到5000不会显著地将PR曲线向右移动。sample\\u split的不同值似乎不会显著影响精确度和召回值,图2。当sample\\u leaf从1增加到3和5时,PR曲线略微向右移动,如图3所示。通过实验超参数值,no\\u trees设置为5000,sample\\u split设置为2,sample\\u leaf设置为1。图1:。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群