- 获取数据
- 了解数据
- 缺失值,异常值
- 诈骗交易与正常交易在发生时间点上的不同
- 诈骗交易与正常交易在交易金额上的不同
- 数据探索(业务理解)
- 查看y标签是否均衡-->不均衡-->权重参数/采样
- 探索X与y的关系,得出简单结论,并为特征工程做准备
- 交易类型与诈骗的关系-->诈骗仅仅发生在 TRANSFER 和 CASH_OUT
- 交易客户名字与诈骗的关系-->没有太大的关系,剔除
- isFlaggedFraud都为0-->剔除
- 数据处理
- 去除重复样本,重复样本会引起预测偏移
- 变量编码
- 交易前后收款方余额都是0,而这笔交易本身不为0的样本比率-->诈骗极多(48.34%),正常交易只有0.17%。可能就是金融诈骗的迹象
- 将交易前后来源方余额都是0,而这笔交易本身不为0的交易,交易前后余额均由0变为-1。
- 交易前后来源方余额为0,而交易金额不为0。金融诈骗发生的比率反而很低(1.14%),正常交易却有47.60%。
- 交易前后来源方余额都是0,而这笔交易本身不为0的交易,交易前后余额均由0变为1
- 特征工程
- 变量衍生
- 模型选择
- 平衡样本-->过采样(SMOTE)
- 模型训练(交叉验证,网格搜索)
- 模型评估
- AUC值
- 混淆矩阵
- 结论报告