全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1166 0
2020-09-06
番茄风控大数据

各位读者大家好,我是陈Sir,久久不见甚至想念。


移动互联网时代伴随着大数据的兴起,很多可获取的内容越来越多,但一方面数据的合规性让数据的使用越来越趋于严谨与规范。这不得不说的是数据的问题屡次挑战公众的视线,某些大厂中因数据管理不规范,被某些数据分析人员将内部敏感数据泄露出外的新闻屡屡挑战大众的神经。

2019年的数据行业的动荡,更是让信贷从业者记忆尤新,也让许多公司重视数据合规性的使用。在最近我们在公众号发文里的数据合规性的使用内容中,大家可以好好看看相关细则:爬虫做得好,牢笼蹲得早。No!好好看看本文的个人信息合规使用


许多敏感性的数据就是在公司内部也已经不能再批量级地输出。想要获取敏感性的客户数据,除了经过公司流程的层层审批外,这些敏感性的内容都只能通过单个点击获取。数据无法获取,做过数据分析跟模型的同学也许对这个情况就非常了解,这意味着什么?


现在的所谓大数据,99%的其实都是垃圾数据。因为有用的数据维度实在是太少,大数据无法落地到实处,其实是没有多大的价值的。举一个真实的案例帮助大家理解:


比如在以下的信贷场景中,我们放款量巨大,单日就有1千多万人次的贷款申请量。一天1千万笔的申请量是总该符合大数据的数据量大的特征吧。但如果此时在这个信贷场景中我们发现能获取的数据维度除了客户的手机号、身份跟借款金额次数以及时间维度外,其他的信息一概不能获取(客户具体的单个信息只能通过单个接口一一查询获取)。

1.png


风控部门是一家公司核心部门,其获取数据的权限一般都是最大的,但这也非绝对的。比如我知道有些小贷公司里财务部门或项目部门才是真正管控整个公司业务的,职权在风控部门之上,权限的缩小,意味着获取数据的能力弱;如果是非风控的部门,其能获取信息跟数据的维度就更少了。但在某些公司的赛马机制下,公司部门之间是存在着竞争文化的。大家都想用数据实现产品变现,这个情况怎么破?


常跟知识星球的同学交流,他们跟我反馈的也是同样的问题,遇到数据量大但是维度特别少的情况,是否仍有较好的处理的方式?


当然是有的,今天我们就基于有限的数据维度,在”大数据”的体系下,我们仍能梳理出一些常见的小模型来。


那其中,借鉴笔者之前开发过的经历,我也给大家梳理了这样常见的数据小模型,分别是:

一. 夜间行为模型

二. 用户频次交易模型

三. 日模型/月交易模型/工作日模型/节假日模型

四. 关系链接模型


在以上场景中,我们一一来谈。


一. 夜间行为模型

夜间行为指的是用户在凌晨0点到7点(或夜间11点到第二天6/7点)这段时间发生交易的行为。在以往所有交易的场景中,夜间行为都是在信贷场景中非常有区分能力的一个用户行为。在风险事件中,我们就会发现夜间交易越活跃,其风险越大。


在夜间交易的行为中,我们可以统计其在夜间,用户发起申请贷款的次数、发生交易的次数、交易金额以及在夜间提现的次数跟金额等。


分析过数据,夜间行为总是在所有的属性中最有区分度的用户行为。


二. 用户频次交易模型

因为时间可以切分到时间,那么在有效的数据内,用好时间维度就显得非常重要了。第一点我们提到了夜间行为模型,那用好时间就成为了我们建模的关键因素。


再次我们再次将时间进行衍生,将时间切片衍生为上午交易时间、中午交易时间、下午交易时间、夜晚交易时间,凌晨交易时间。我们将时间维度按照不同的内容衍生到以上5个模块。至此,潘多拉的魔盒似乎被打开。原来,时间切片还可以这么玩。这样的数据衍生,也是某次脑暴中与人讨论后得出的衍生的切片数据。


将此类的数据衍生切片再跟上述的为数不多的几个维度:申请贷款的次数,交易的次数/金额进行组合就可以衍生出非常多的数据特征来。

三.日模型/月交易模型/工作日模型/节假日模型

日模型跟月模型是相当较为基础的模型框架,日模型跟月模型中,常见的是环比跟同比的数据分析。


工作日跟节假日在某些场景中是需要分来的。比如商户跟用户的交易的这个模式中,如果对比交易量肯定是节假日的会比工作日的高出几个数量级。类比还有淡旺季之分。特别是旅游景区中的商户。旅游业是会分淡旺季的,如果知道商户的类型,还能输出对应的淡旺季模型。


通常来讲,以上的内容中,时间是一个重要的考虑因素,无论如何都绕不开时间这个维度。用时间做成各种小模型,需要再将小模型做到小而美,再迭代大模型。小模型可以理解为以统计分析为基础,以规则为内容来做的。在做好上述的统计细节后。基本来说我们都应该升级到下一阶段更有价值的模型的开发中。


在我以往的项目经验中,告诉我前期阶段是最难但是也是最容易做出成绩的。上述的第一阶段可以说是整个数据分析阶段中最应该梳理与打基础的阶段,这个阶段做好,在项目中就可以申请资源进一步梳理以下内容。


四.关系链路模型

开启这点更深入的模型之前,我们可以看到在小模型上都是以单向链路的内容去梳理的内容,在做好小模型争取到更多的资源后,我们有希望将交易链路上的各个角色都穿插进来。这样每个角色之间,我们就能输出关系链路模型,业内也叫关系网络。


常见的场景有:B商户跟A用户交易,之后在进行结算时候,B商户的资金往来如果经常跟一个C用户经常公对私转账,我们或者能认为A跟C之间存在某些关系。如果C用户是一个黑名单用户,在反洗钱规则也势必命中相关规则。不过这样的关系梳理起来就显得更为复杂些。


小结

大数据小模型,跟普通的模型的不同点如本文所述那样:小而美。小而美快速迭代仍是互联网的精髓所在,如果能大而全我相信谁都想一次到位将模型开发完善。但就是因为数据维度的不充分,所以才需要进一步确认较多的数据维度。


在今天的文章中我们利用有限资源,难之而为之的快速开发上线,我也感觉非常符合中国哲学中道家的思想。


《道德经》中介绍了一种小而美的生存方式:降维生存。在诸子百家中,发家要实现的目标叫做大、做强、大一统;儒家追求的理想叫秩序、等级、处中庸。而道家追求:简单、精致、小而美。


在一个黑天鹅乱飞的时代,我们普通人能找到一条小而美的道路,或许是更好的人生选择。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群