统计不确定性:为什么Covid-19数字如此变化?
如果您一直在关注上周Covid-19的统计数据(而谁还没有呢?),您可能已经注意到美国的死亡人数预测范围很广,从“最好的-案例”(327人)到“末日”数字(220万)。最近发布的统计数据包括:
327至160万(《华盛顿邮报》引述前CDC董事汤姆·弗里登(Tom Frieden ))。
480
从20万到170万(CDC,在NYMag中引用)。
220万(帝国理工学院)。
这些都是众所周知且值得信赖的资源,因此引出了一个问题:为什么没人能在数字上达成共识? 答案可以概括为一个词:不确定性。将一小部分不正确的数据输入模型可能会对结果产生巨大影响,这就是为什么计算Covid-19统计数据对科学家构成许多挑战的原因。但是这种情况远非寻常:在每种情况下,每种统计模型都存在不确定性。
不确定性来源
不确定性来源包括:
插值和外推错误:插值是您根据一组现有点构造新数据点的地方。例如,由于该特定日期的数据可靠性(或可靠性),此Johns Hopkins / Datawrapper图使用插值法计算了3月12日的数据点。在这种特定情况下,插值可能会导致对3月12日缺失数据点的相当不错的估计。但是,真正可以开始出现问题的地方是, 将数据推算到远远超出这些已知数据点的范围,比如说三个月。外推法在这里获取一组已知点(例如,在t = 1到t = 99处)并试图找出在t = 250处将要发生的情况。对于Covid-19,根本不够好数据输入模型,因此试图弄清楚将来某个时间点t将会发生什么,只不过是一些数学上的猜测而已。
模型偏差: 任何模型都是一个近似值,或者是对真实分布可能看起来的最佳猜测。已经使用了各种模型来拟合Covid-19孵育数据,包括Erlang分布和 (Kucharski等) 和对数正态(Laur等)。但是,该预印本表明潜伏期不遵循任何通常的潜伏期分布,例如对数正态分布,Weibull或Gamma分布。可以从良好的数据中学习模型。但是对于Covid-19,很难获得“良好”的数据。即使我们确实有大量的源数据, 模型也可能完全错误。疾病预防控制中心(CDC)预计,2014年秋季,利比里亚和塞拉利昂将在次年1月前发展出55万至140万例埃博拉病例。实际数字?28
测量错误:由于观察方法不完善或环境不受控制,可能会发生错误 。 当将数学模型转换为计算机时,它们也会蠕动。研究人员面临的两个最大困难是:新型冠状病毒应运而生的中国正在 不断改变其病例计数方式。 此外,测试对于Covid-19都供不应求,部分原因是一些测试部件的不可用性(例如 试剂CHEMICA LS 和专门的拭子)。仅这两个事实就足以使任何建模尝试无效。在理论上,只需回到绘图板上并重新收集新数据即可。但这不是爆发的选择;如果您的数据薄弱并且需要做出决定,那么“您只需尽最大可能合并您的信息”(安德鲁,发表在Columbia.edu上)。
参数不确定性:之所以发生这种情况,是因为我们不知道总体中的确切值-我们只能通过采样来做出很好的猜测。模糊数据和缺乏测试意味着Covid-19的任何统计模型都仅基于样本-人口的一部分。随着最近流行病中样本的完全偏倚(充满错误),统计模型将表现出病理性。
选择偏差:最佳模型包括随机性,这就是为什么理想情况下应该随机选择人员进行测试的原因。缺少可用的测试工具包意味着每种潜在或轻度病例都没有足够的测试工具包( CDC冠状病毒自我检查器 目前建议人们“留在家中并照顾好自己”,除非您遇到威胁生命的症状)。但是,接受Covid-19检测的患者往往陷入疾病谱的严重到致命的危险。
所有这些不确定性导致无法确定任何病理模型。牛逼的帽子,这并不是说,大约Covid-19的末日预言是不正确的。我们只是不知道。
为什么不等到拥有可靠的数据呢?
在任何普通的日子,都会生成数百万个统计模型,并且大多数模型都会被抛弃。即使拥有大量良好的数据,统计模型也很难正确处理。在大多数情况下,科学家可以重新加工数据,找到更好的模型,然后花一些时间来正确建立模型。在Covid-19上,花时间获得好的模型是一种奢侈。人们现在想要和需要答案。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!