全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 学道会
696 1
2020-09-21
- 获取数据
    - 了解数据
    - 缺失值,异常值
    - 诈骗交易与正常交易在发生时间点上的不同
    - 诈骗交易与正常交易在交易金额上的不同
- 数据探索(业务理解)   
    - 查看y标签是否均衡-->不均衡-->权重参数/采样
    - 探索X与y的关系,得出简单结论,并为特征工程做准备
        - 交易类型与诈骗的关系-->诈骗仅仅发生在 TRANSFER 和 CASH_OUT
        - 交易客户名字与诈骗的关系-->没有太大的关系,剔除
        - isFlaggedFraud都为0-->剔除
- 数据处理
    - 去除重复样本,重复样本会引起预测偏移
    - 变量编码
    - 交易前后收款方余额都是0,而这笔交易本身不为0的样本比率-->诈骗极多(48.34%),正常交易只有0.17%。可能就是金融诈骗的迹象
        - 将交易前后来源方余额都是0,而这笔交易本身不为0的交易,交易前后余额均由0变为-1。
    - 交易前后来源方余额为0,而交易金额不为0。金融诈骗发生的比率反而很低(1.14%),正常交易却有47.60%。
        - 交易前后来源方余额都是0,而这笔交易本身不为0的交易,交易前后余额均由0变为1
- 特征工程
    - 变量衍生
- 模型选择
    - 平衡样本-->过采样(SMOTE)
    - 模型训练(交叉验证,网格搜索)
- 模型评估
    - AUC值
    - 混淆矩阵
- 结论报告
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-9-21 21:38:41
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群