5、文字分析首先针对特征的权重即重要性情况进行说明,如下图:

上图可以看到:换设备次数,或者换IP国次数这两项对于预测是否欺诈有着较高的帮助,而且支付失败次数也起着重要的作用。但是换IP次数或者交易金额这两项的作用相对来讲会较小些。接下来针对最重要的模型拟合情况进行说明,如下表格:

上表格中分别针对训练集和测试集,提供四个评估指标,分别是精确率、召回率、f1-scrore、准确率,以及平均指标和样本量指标等,整体来看,训练集的拟合效果非常好,各项指标均完美为1,但更多还需要从测试集上看,测试集上F1-score值为0.89,接近于0.9,另外精确率和召回率也在0.9左右,意味着模型可能有着过拟合问题,训练集完美但测试集指标相对一般。
接着进一步查看测试数据的‘混淆矩阵’,即模型预测和事实情况的交叉集合,如下图:

‘混淆矩阵’时,右下三角对角线的值越大越好,其表示预测值和真实值完全一致。上图中显示测试集时,真实值为1(即欺诈)但预测为0(即不欺诈)的数量为20,另外真实值为0(即不欺诈)但预测为1(欺诈)的数量为2,仅测试集共有200条,但预测出错为22条,出错率为11%。最后SPSSAU输出模型参数信息值,如下表格:

模型汇总表展示模型各项参数设置情况,最后SPSSAU输出使用python中slearn包构建本次CatBoost模型的核心代码如下:
model = CatBoostClassifier(loss_function='None', iterations=500, learning_rate=0.1, depth=6, colsample_bylevel=1.0, l2_leaf_reg=3.0, random_seed=0')
model.fit(x_train, y_train)