可视化COVID模型的性能
在冠状病毒大流行中,统计模型从未像现在这样受到关注。今天很难在不遇到任何一个的情况下阅读新闻提要:
来自IHME模型等模型的新预测,或
对较早的预测的批评。
那么–以前的预测结果如何?
如果您一直在关注新闻,您将知道答案是“不太好”。考虑从4月16日开始的IHME(华盛顿大学“默里”)模型的预测:
图1:根据IHME预测的死亡人数
做出预测后的实际死亡人数(橙色上下线)不仅超过了线估计值(平滑的向下倾斜曲线),而且最终超过并保持在不确定区间的上限之上。而且不确定性间隔本身就是很好奇–为什么在最终实际数据点之后,不确定性最小时它会如此之大,而不确定性最大时,为什么它会那么小?
在给定的时间点轻松拍摄特定模型和预测的照片;唯一在100%的时间内正确的预测是事实之后做出的预测。需要注意的是,随着新数据的获得,IHME模型会随着时间发生巨大变化。最初,它完全基于来自中国的武汉数据,这些数据不再被认为是可靠的。然后添加了来自意大利和西班牙的数据。最近,对不确定性级别的计算方式进行了改进,以便它们更好地反映实际情况。
可视化先前预测的工具
在这里,我们提供了一个工具,允许用户返回并可视化模型投影随时间的变化,并将投影与实际发生的情况进行比较。我们已经从IHME和洛斯阿拉莫斯国家实验室收集了数据并检查了模型,因为这些组织保留了其预测的历史。我们将它们与从covidtracker.com(从约翰霍普金斯大学聚合站点中提取)中检索的数据进行了比较。我们将投影和数据放到一个交互式的可视化工具中。上图是在某一时间点选择一个模型的结果。您可以在此处尝试使用COVID模型可视化工具。 [ 注意 -您需要在可视化工具图例中将“ CI”更改为“ UI”]
这些模型分别在R 2 和MAPE,确定系数和平均绝对百分比误差上得分;两者都是模型预测数据的效果[1]。一般来说,Los Alamos模型的表现优于IHME模型,后者对4月5 日的预测的预测有暂时的非常大的差异。双方都在某些领域苦苦挣扎,都有长处。
例如,与IHME模型相比,Los Alamos模型通常在95%不确定区间(UI)中具有更大的方差,但其MAPE和R 2 更好。并且,如上所述,IHME预计的95%UI不会涵盖从其4月16 日的预测开始的实际记录的数据。另一方面,IHME预测似乎在每周的数据“季节性”上有所提高,并纠正了记录的死亡似乎在整个星期都遵循趋势的事实。关于这一点,请参阅我们的博客。
结论
在不断变化的预测的基础上做出了许多重要的决定,即公众越来越发现其变化惊人的预测。人们已通过多种方式应对这种波动:
什么都不相信
相信新闻中的最新预测/分析
选择并选择适合您偏好的分析
根据持续评估和重新评估来形成自己的照片
第四个选项是最难执行的选项,但对于那些想要从数据中找到真相的人来说,这是正确的选择。这里介绍的可视化工具应该会有所帮助。
致谢
作者要感谢Sam Ballerini和Andrew Stewart在帮助创建此处介绍的可视化工具方面所做的工作。使用下面的评论部分邀请读者评论。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!