【问题背景】SPSS MOdeler中有个评估节点用于对多个分类模型进行评价,其中可以通过收益、响应、提升等多种形式来生成评估图表进行展示,SPSS Modeler自带的帮助文件中关于评估节点有这样的解释:
评估节点为您提供了一个评估并比较预测模型,以选择最适合模型的便捷方法。评估图表显示模型如何执行对特定结果的预测。评估图表的工作原理是:根据预测值及预测的置信度排序记录、将记录分割为大小相等的组(分位数)并按由高到低顺序为每个分位数绘制业务标准值。以评估节点中的收益图为例:根据SPSS Modeler自带的帮助文件中所解释:
收益图表
收益的定义是相对于全部匹配,发生于每个分位数中的匹配的百分比。其计算方法为(分位数中的匹配数量/全部匹配数量) × 100%。
我以一个包含10条记录的样本数据为例,利用C5.0建立分类模型,并对生成的模型利用评估节点生成收益图
下面的excel是收益图的原始数据,蓝色的部分是最佳线,红色部分为实际模型
【问题描述】
1、收益图的X、Y坐标是如何定义的,根据spss的官方解释:据预测值及预测的置信度排序记录、将记录分割为大小相等的组(分位数),是否就是根据模型给出的预测值的置信度对记录进行降序排序,然后计算百分位数?
2、收益图表的原始数据中实际模型的数据到底是如何计算的,能否给出具体的计算过程
【相关附件】
附件为Modeler流文件