经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
大数据分析
数据&模型同学看过来|代码案例实操来袭
楼主
滨滨有利123
802
0
收藏
2021-08-06
去年年底,央行开出反洗钱罚单,多家银行合计被罚1040万元。
当时,中国人民银行石家庄中心支行披露的反洗钱行政处罚信息公示表显示,因涉及未按照规定履行客户身份识别义务等,中行、邮储、浦发三家银行以及阳光人寿被罚,同时多名相关责任人均被处罚。
值得注意的是,此次罚单中,中国银行被罚金额最大,合计被罚1040万元。
详见链接:
http://news.bandao.cn/a/427838.html
其中处罚原因占比最高的三项为“客户身份识别”、“未按照规定报送大额和(或)可疑交易报告”,以及“客户身份资料和交易记录保存”。
监管的合规要求越来越高,而机构在有限的资源下,必然会面临着较大的反洗钱合规压力。越来越多的金融机构面对反洗钱也面有难色。比如刚开始提到的难题:如何监控大额和可疑交易监测及报告、客户洗钱风险评级等。因此本文我们跟大家分享下反洗钱模型的一些经验内容。
反洗钱模型,涉及客户洗钱风险等级划分模型、产品或业务洗钱风险评估模型以及可疑交易监测模型等。
反洗钱监管部门也明确要求法人机构应定期对模型的有效性进行评估并予以完善。而模型的开发流程借鉴之前的内容可以有以下流程:
管理和监督——>数据收集——>假设数据——>原理和方法——>操作与测试——>输出
对于很多金融机构来说,可疑交易的监测会面临类似的问题,如触发的可疑交易数量庞大、人工分析效率不高等。
而模型的引入就是解决人工筛查慢的一个重要工具。模型通过定性分析与定量分析的结合,并且对于模型运行进行综合的评估并提出优化建议,不断提高系统的有效性。
模型主要关注机构的监控场景是否完备,以及监控系统是否囊括了机构现行的产品与业务。通过梳理机构的产品、业务,以及对照监管要求与权威组织发布的指引等内容,审阅可疑交易监控规则是否存在缺漏和不足。
而监控模型的有效性验证则主要通过对关键绩效指标和场景重复性予以评估。关键绩效指标是根据机构交易监控场景中产生的关键性的数据指标,分析不同场景下数据的差异。场景重复性分析则会重点审阅系统监控场景配置中生成重复案例的情况及原因。
监控场景阈值测试通过
数据分析
方法,判断各个场景下技术指标设定值的适当性,是模型验证中非常重要的组成部分。
监控场景阈值测试从场景上来可分为商户与个人,从数据分析方法来分可以分为定量分析和定性分析两部分:
a.定量分析:
主要为技术指标的设置和调整提供量化建议
确定活动因子
确定监测模型中的关键活动因子,及确定纳入分析范围的子场景和活动因子
相关性分析
判断活动因子的相关性,确定主要技术指标和次要技术指标
稳定性分析
计算活动因子的各月分位数和平均数的值,确定数据分布的稳定性、周期性和趋势
分布情况分析
分析数据的分布情况,确定技术指标阈值和STR的分位数,使用K-Means方法确定群组上下限,确定建议阈值。
b.定性分析:
主要判断建议的阈值是否符合成本效用原则,以进一步确定是否需要进行阈值调整
确定增量样本
对于建议调低阈值的,按照建议阈值调整设定,并导出阈值调整后增加的样本记录
样本抽样
确定置信度、边际误差和预测有效案例生产率,对于调整阈值后增加的样本记录进行抽样
检查有效性
结合交易记录内容和客户信息,检查抽取样本的有效性并记录
接受/拒绝建议
根据样本有效性的检查结果,使用假设检验法作出接受/拒绝建议的决定,形成最终调整结果通过定量分析与定性分析相结合,对于监控模型的阈值区间给出了具体的建议,从而有效帮助客户对于阈值设置进行量化的考量。对于监控模型的验证,可以有效帮助机构全面评估可疑交易监测系统的实际情况,发现有可能会影响系统运行的薄弱环节,从而提高系统监控的效率。此外,在完成阈值设置的验证后,当然对阈值进行持续的动态调整与优化,根据积累的可疑交易监测数据定期对阈值进行优化。
客户洗钱风险等级划分
根据以往的项目经验,交易监控模型被归类为高风险模型,而某些不使用任何算法进行的筛选,则将其分类为非模型或中、低风险模型。而客户风险评级模型的评级则会因机构的固有风险评级方法的不同而进行差异化调整。
一般来说,客户风险等级划分的参考因素主要包括:
•客户的特点,如法人信息、所有权类型、业务性质等。
•地域的因素,如客户所在地、经营所在地等。
•产品/业务因素,如产品匿名性、是否跨境等。
•行业因素,如现金密集性行业等。
•预期行为,如客户预期的交易金额或交易数量等。
利用以上规则细细梳理而来,反洗钱的规则大概有以下内容:
1、时间多在凌晨,或不分昼夜;
2、短时间内现金交易突增长或突然加快;
3、拥有N个账户(N>2)且这些账户现金交易频繁,单笔或累计交易金额大;
4、长期闲置或少使用的账户突然存取大量现金;
5、频繁接收境外汇入资金,并在短期内要求现金解冻;
…….
N、频繁或大量存取现金,与他身份跟自身身份不相符…….
在对客户风险等级划分模型验证时,同时也会采用定性分析和定量分析结合的方式。首先会审阅机构现行的风险评级参考因素,检查风险要素是否还存在不足。在此基础上,结合机构风险偏好、监管要求,以及专家意见等综合考量风险评级因素的权重,通过与现行评级进行比较,发现实际评级与预期评级之间的差异。
而定量分析侧重于对于评级分数区间的计算和评估,以验证评级分配是否合理且符合业务预期。
通过聚类分析等算法,为不同的风险评级测算出科学、合理的评分区间。最终我们基于监管要求、行业标准、最佳经验以及评估结果等,为客户提出改善化建议,解决现有评级中发现的差距和不足。
反洗钱模型,充分利用现有反洗钱系统的历史记录、指标、规则以及分析结果等相关数据,通过行之有效的分析计算等验证方式,最后将模型予以优化和完善。建立这样长效的工作机制,可以逐步形成良性的生态循环,不断提高系统模型运行的效果。这样的长效工作机制,更需要机构在内部合规体系构建、制度流程建设,以及日常运营等方面的通力配合。
案例实操:反洗钱实战分享
传统的反洗钱监测可疑交易主要基于客户交易金额、地点、时间等维度,依靠人工来甄别排查,而本次案例我们尝试一些不一样的类型的数据用上目前的AI技术帮我们缩窄筛查面。
本次案例背景,我们基于银行某支行的交易数据。其中相关的数据较为敏感,本次暂不公开,其所含字段类型大概包括以下类型:
1.支行
2.存/取现时间
3.卡类型
4.交易金融
5.消费时间
6.消费金额
7.近半年消费次数
8.近三月大额消费次数
9.近三月小额交易次数
...
做过反洗钱工作的同学肯定知道,很多反洗钱只是会进行大额的监控,并且还自带相关白名单,等到冲过银行的限定阈值就会报警。比如单笔交易5W,月均30W这样的阈值。这一次我们利用
神经网络
Auto Encoder算法来做相关模型开发,来增强模型的敏感性。
AE,Auto encoder,非监督学习算法的一种。因为其损失函数,MSE,对偏离更大的值较为敏感,也是被人吐槽多次的模型,当然其中的一部分还要归因于神经网络自身。但考虑到我们本次开发用到的是数据样本,不是图形样本,所以用AE也是合适的。因为MSE对数据平均值上下浮动的感知不会明显,其loss不会降的很低,但也不会升的很离谱,其对离群感知明显,效率也快。
目前来讲,AE整个算法最起到作用的就是降维,比如原来的客户有600个数据特征,即600维度特征。Auto encoder就如上面那个漏斗形的网络那样,将600个特征值降维到二维。即:将600个客户特征浓缩到两维特征。当然浓缩后的特征代表着什么仍有待考究,但是重要的是浓缩后的特征的数据的趋向性。
以下图为例,每个点是一个客户。大家能发现明显的聚合趋势,都能发现明显的极端值。这样就完成了第一步的客户特征值降维。
根据反洗钱案例评分模型找出潜在的高洗钱评分案例,筛选出top N排名高的客群作为高评分案例,作为可疑案例排查,有效降低了排查成本,提高了排查效率,减少了误报率。
通过与客户画像的匹配,识别出客户交易行为的合理性,及时发现客户身份与交易行为之间的异常,有效指导业务部门进一步精细化、针对性地开展反洗钱工作,为及时做出决策提供信息依据。
本次实操代码如下:
在实际的业务中,我们会再根据模型评分开展日常反洗钱交易的监测与筛查,实现反洗钱可疑交易数据的集中分析与管理。同时,根据模型的评分给定三个等级:高风险、中风险、低风险,对客户进行更全面、更立体化的识别,多角度勾勒出客户的行为特征,形成全方位的客户风险画像。
这次关于反洗钱相关资料教材也同步至知识星球平台,星球同学可以上去查收:
~原创文章
...
endv
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
关于k-means的一些问题
K-Means法变量必须标准化?
求助SPSS K-means方法问题
k-means算法在商品分析中的应用
[傻问题]K-Means和EM聚类后,如何确定类别的边界?
spss做聚类分析k-means算法,在确定最优聚类数k时的问题?
【学习笔记】K-means算法
【学习笔记】机器学习第二天 K-means算法听懂了 决策树了解了一点 加油
聚类–分区和分配算法
什么时候使用特征缩放?
栏目导航
大数据分析
经管文库(原现金交易版)
Stata专版
行业分析报告
休闲灌水
数据分析与数据科学
热门文章
“木语者”袁宣华:芜湖是我的根!”
电力巡检无人机行业深度报告:智能电网时代 ...
整体微分几何初步 沈一兵
南京2025年度房地产市场分析报告
高教现代数学基础 08 泛函分析第二教程 夏道 ...
【24重磅,热点!】2008-2024上市公司异常审计 ...
【顶刊方法,24重磅!】2008-2024上市公司客户 ...
CDA数据分析师:商业数据分析体系构建的核心 ...
对扩散语言模型开启了一次深度思考
CDA数据分析脱产就业班于2025年12月08日开班 ...
推荐文章
【必看】【本版版规,欢迎发悬赏贴求助】
26年寒假天津站|Gemini论文写作&数据分析 ...
2026JG学术冬训营:从Stata初高到Python机器 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群