学习预期值框架进行
数据分析的3个理由
在业务中实施数据科学的最困难,最关键的部分之一就是 量化投资回报率或ROI。在本文中,我们重点介绍 了学习期望值框架的三个原因,该框架将
机器学习分类模型与ROI连接起来。
学习预期价值框架的3个原因
如果要将数据科学与ROI结合使用以进行机器学习分类器,这是您需要了解期望值的3个原因。我们将举一个与员工流失(也称为员工流失或员工流失)相关的示例。
原因#1:分类机器学习算法通常会误判错误的指标
F1是协调精度和召回性的阈值(换句话说,它的最佳目的是减少误报和误报,以找到达到相对平衡的阈值)。问题在于,在业务中,与误报(类型1错误)和误报(类型2错误)相关的成本 很少 相等。实际上,在许多情况下,假阴性的成本要高得多(大约是3:1或更大!)。
示例:员工吸引力的类型1和类型2错误的成本
我们开发了一种预测算法,发现加班时间过多时,员工的可能性要高5倍。
从H2O + LIME结果计算预期的损耗成本
我们提出了一项建议,即使用功能极为强大的H2O分类模型以及LIME来减少加班时间,从而说明了结果。像许多算法一样,默认情况下,我们通过处理类型1和类型2错误进行优化。最终,对离职人员(第2类错误)的误分类大致与我们对休假的人(第1类错误)的误分类大致相同。如果雇员辞职,减少加班的成本估计是生产力损失的30%。但是,错误地减少留下来的某人的超时成本比第一类错误高30%或三倍,但我们却一视同仁!业务问题的最佳门槛 几乎总是小于F1阈值。这导致我们需要了解预期价值框架的第二个原因。
原因#2:解决方案是最大化期望值
当我们进行计算以确定使用业务成本的期望值时,我们可以迭代执行计算,以找到使业务问题的预期利润或节省最大化的最佳阈值 。通过迭代计算在不同阈值下产生的节省,我们可以看到哪个阈值可以优化目标定位方法。
在详细的示例中,我们可以在阈值优化结果中看到最大节省($ 546K)发生在阈值0.149处,这 比最大F1处的阈值节省($ 470K)多16%。值得一提的是,使F1最大化的阈值为0.280,而对于包含总人口15%的测试集,由于次优($ 546K-$ 470K)而导致的成本为$ 76K。 将这种低效率扩展到整个人群(火车+测试数据),这是每年50万美元的错失良机!
但是,该模型基于许多假设,包括平均加班率,每名员工的预期净利润等。
原因#3:期望值可以检验假设的可变性
我们可以将灵敏度分析与期望值一起使用。我们测试模型假设对离职员工的预期利润(或储蓄)的影响
在下面的人力资源示例中,我们测试了一系列值的 平均加班率和 每位员工的净收入, 因为我们对未来的估计可能不正确。在 下面显示的 敏感性分析结果中,我们可以在获利能力热度图中看到,只要平均加班百分比小于或等于25%,实施有针对性的加班政策就可以为组织节省资金。
题库