这是一个非常广泛的教程,除非你对学习 ARIMA 时间序列预测的进出不感兴趣,否则不要费心点击。
但我确实想分享这个包含 5 个非常有用的指标的列表,以便快速了解如何在使用时间序列数据时评估预测误差。在这里,我们还了解了一种措施失败而另一种措施成功的情况。希望你喜欢这个夹头。我很懒惰,只是复制粘贴原始文章中的一些有趣点,希望通过新的和更新的信息与数据科学中心的读者联系。
误差是实际值与其预测值之间的差异。这里残差不同于预测误差有两个原因。第一个残差是在训练数据集上计算的,而预测误差是在测试或验证数据集上计算的。其次,预测涉及多个步骤,而残差涉及单个步骤。下面给出了一些我们可以用来总结预测误差的指标。但在此之前,让我们看一下计算误差的公式。这里 P 代表预测/预测值。
平均绝对误差 (MAE) – MAE 是最流行、易于理解和计算的指标之一。值越低越好是我们的预测。试图最小化 MAE 的模型导致预测中值。
均方根误差 (RMSE) – RMSE 也是统计学家用来了解预测效果的常用方法之一。与 MAE 相比,这些数字的解释要困难得多。试图最小化 RMSE 的模型会导致对平均值的预测。
MAE 和 RMSE 都是与尺度相关的误差。这意味着错误和数据都在相同的范围内。这对我们意味着什么?这意味着我们不能使用这些度量来比较具有不同单位的两个不同时间序列预测的结果。
平均绝对百分比误差 (MAPE) – MAPE 优于 MAE 或 RMSE,因为它没有单位,因此可以安全地用于比较不同单位的时间序列预测值的性能。如果您混合使用快速和缓慢移动的产品,则不应使用该措施。原因是它不了解快速移动产品和慢速移动产品之间的区别。通常情况下,我们预计与缓慢移动的产品相比,快速移动的产品会被赋予更高的权重。
如果你仔细看这个公式,你会发现如果 Y 为零,那么 MAPE 往往会变得无限或不确定(一个典型的被零除的问题)。这是什么意思?这意味着如果我们的时间序列的值为零,我们不应该使用 MAPE。MAPE 的另一个缺点是它对负错误的惩罚比对正错误的惩罚更大。
加权平均绝对百分比误差 (WMAPE) – WMAPE 是一种非常有用且流行的操作方法。它为快速移动的产品提供了更多的重要性,也为 MAPE 的除以零问题提供了解决方案。
对称平均绝对百分比误差 (SWAPE) – 另一种解决 MAPE 的“除以零问题”的方法,但该指标可能有负值,这使得难以解释。
平均绝对比例误差(MASE) ——我们讨论的所有上述误差都取决于比例,因此在比较不同单位的时间序列结果时会造成限制。引用这些限制,Hyndman & Koehler (2006) 提出了一种称为 MASE 的替代指标。MASE 的公式很复杂,因此我们暂时跳过它。
现在我们已经简要介绍了一些最流行的计算预测误差的方法,让我们看看 Python 中可以使用哪些包和函数来生成这些统计数据。
# 计算 MAEmae = np.mean(np.abs(actual - ))# 计算 MAPE
mape = np.mean(np.abs(actual - forecast)/np.abs(actual))
# 计算 WMAPE
wmape = sum(np.绝对(实际 - 预测))/总和(实际)
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选