流行病学基本定理
1930年代意大利数学家的工作可能是流行病建模的关键。
这是因为试图在所有危机中复制现实的模型在这场危机中难以驾驭,尽管作出了高贵而紧迫的努力来重新校准它们,但却导致了不良的预测。另一方面,过分程式化的隔间模型已陷入悖论,例如瑞典的牛群免疫。
de Finetti定理启发了另一种方法。
我们在模型空间(待解释)中确定轨道,这些轨道使我们关注的关键决策量保持不变。
在凸度计算的辅助下,我们使用IID模型的混合来跨越轨道。
上图表示了这种方法。需要注意的重要一点是,我们并不是试图找到一个接近真相,而是仅仅靠近轨道的模型。我保证,在第1节之后,这将变得更加有意义。
大纲
de Finetti定理简介
流行的自然模型...在广阔空间中的某个地方
最重要的问题是对称的
对称群的轨道
寻找轨道
1.介绍de Finetti定理...或接近它的东西
附近的两家医院有可能用完用品。Joe和Mary致力于为二元结果建立概率模型。要么会有短缺,要么没有。总共有四个可能的结果。皮特市长列出了规则,并指出只能为此特定的随机建模练习部署硬币。
两个地点都应有50%的短缺机会
结果必须正相关
医院可以互换
乔是第一个回来的人。他解释说,他的模型使用条件概率来联系两家医院的命运。他掷出一枚硬币来确定医院A的命运。然后(花费了他更长的时间来弄清楚这一点),他掷出了更多的硬币并开始记录序列,直到出现HTH或TTH为止。他解释说,前者将首先以3/8的概率发生,在这种情况下,他将结果分配给医院B,这与医院A的结果相反。否则,概率为5/8。乔为之骄傲。
玛丽接下来去。她说,好吧,很明显,我可以使用两枚硬币产生四分之一的短缺机会。所以我要做两次,每家医院一次。
皮特市长看着玛丽·阿格斯特。玛丽不仅没有将两家医院的命运联系在一起,而且她显然完全忽略了他的第一条规定。他说,至少你用过硬币。但是我是否没有告诉您每个医院都有五十五十的机会?哦,是的,玛丽说。我知道。我每隔一段时间就会反转一次结果。
右边说,皮特市长翻了个白眼,我要用乔的模型。但是玛丽,如果您不介意的话,我想用您的备份。玛丽亲切地同意,并在接下来的几天里向皮特市长提供他所要求的计算,所有这些计算都是基于四个结果的概率。皮特市长需要保险计算,风险衡量和各种指标来指导决策。
第二周,皮特市长召集乔和玛丽到他的办公室。令他们共同惊讶的是,他开始进行串谋指控,将乔和玛丽的调查结果归还给他们,并要求知道为什么它们在各个方面都是相同的。他问,你不知道这有多重要?我有第二个意见是有原因的。乔大为震惊,但玛丽随便拿出一支笔,无言以对地证明了每个模型平均会产生四种结果中的每种结果多少次,并有32次机会。
玛丽似乎毕竟知道她在做什么。她的方法还有另一个优势,对我们很重要。Joe模型中的联合概率(即6/32和10/32)不能写成医院结果的个体概率的乘积。但是,在等式的Mary一侧,请注意,这对于两个矩阵中的每个矩阵都是可能的。
她已经证明,乔的模型与医院的结果明确相关,等同于医院独立的两种模型的混合。此外,我们还注意到,在包含玛丽混合场景的每种情况下,医院A和医院B的结局概率都是相同的。医院不仅是独立的,而且分布均匀。
这可以看作是布鲁诺·德·芬内蒂著名定理的有限维渲染。该定理表明,可交换随机变量的任何模型都可以分解为许多更简单的模型的混合物,其中变量是独立且均等分布的。乔可以尝试发挥创造力,但假设医院之间的相关性强,玛丽的方法可能是一条更简单的途径。
de Finetti定理在实践和哲学上都具有深远的意义。该定理有时被用来激发贝叶斯统计。它被称为统计推断的基本定理。当然,如果有人面临为某种事物产生可交换模型的需求,那就应该想到这一点。对我们而言,更有意义的是,当人们面对一种数学难题时,看起来似乎在重新布置躺椅后仍然保持着同样的难题。
2.大自然的流行模型可能很微妙
在此之前,让我们就可能包含真实模型的大量可能模型达成一致。我们将假定以下流行病:
世界被划分为M个不互动的区域
在每个区域内,有N个社区进行互动
这些只是唯一的假设,因此我们几乎没有采取任何行动来约束自然。我们建议一个区域有一个真实的模型。每次播放M次,结果不同。毫无疑问,自然的模型非常复杂,但是尽管我已经给出了关于德芬内蒂定理的暗示,但并没有要求对社区进行平等对待。一个社区的几率可能比另一社区的几率更大。尽管我们可以使用所有随机建模工具,但邻域轨迹的联合分布可能远远超出了我们的建模能力。
在我们学习的过程中,自然可能会像我们想象的那样下象棋。在上一篇文章中,我考虑了牛群免疫力与早期生长之间的奇怪关系。模型的空间可能包括发生这种情况的轨道:
观察#1:在早期,倍增时间在一周以下
观察#2:峰值感染发生在20%的渗透率。
经典的SIR流行病学模型就是这种方法的一个示例,该方法拒绝屈服于这种观察,而是一举两得。我们迅速回顾了失败是从#2倒退到#1的原因。
观察结果1表示,每天实际感染的人数(相对于具有传染性的人数)必须是开始感染人数的4/5(易感人群已下降到80%,因此有机会感染遇到可以感染的人下降了0.8倍)。因此,如果情况保持平衡,那么当易感人群接近100%时,感染一定是恢复的5/4。
5/4与1之差为1/4。以我们假定的7.5天的典型世代时间为单位来衡量,过度感染与恢复之间的转换意味着增长了25%。我们的倍增时间是23天,比观察1所要求的一周大得多。
因此,假设自然属于该特定类别的模型似乎是一个非常糟糕的主意,而最好是从对真实情况的极其温和的假设中回溯。我假设自然模型只有一个缺点-区域是独立的。当然,我们知道实际上地区之间将相互作用,这似乎是大流行的定义。但是社区之间的互动可能会更多,因此这可能是我们可能会遇到的一种简化。您甚至可以通过假设全局依赖性由一个因素驱动来尝试删除它。
3.大多数问题是对称的
以下对于决策很重要:
给定时间的病例数计数
感染高峰期
对数图中个案时间序列的斜率
倍增时间
从模型推断出的ICU单位总使用量估算值
我们可以列出更多。这些是汇总统计信息。如果我们在仿真开始时交换邻居的角色,则它们将保持不变。我不会为这一点感到遗憾,因为这很明显,但是当与de Finetti定理结合使用时,它会走很长一段路。
4.对称群的轨道
至少在此特定职位上,我们对自然真实模式的追求将永远不会成功。但是,我们将尝试找到该模型的对称版本。这是大自然的典范。我们使用更易于可视化的内容来解释对称操作。
为三个骰子排列模型
让我们从骰子开始。为此,让我们假设模型A将概率分配给三个骰子的结果。为方便起见,Die1 = X,Die 2 = Y,Die 3 = Z,结果标记为x,y和z。模型B与模型A非常相似。模型分配的概率如下:
其中0.02为近似值。不太一样,但显然相似。当两个骰子的乘积接近第三个骰子的乘积时,两个模型都将较高的概率分配给模具辊的组合。但是,当我们从模型A迁移到模型B时,我们会交换骰子的角色。因为这是唯一的变化,所以我们说模型A和模型B位于对称组的同一轨道上,对称组是模型的所有排列的集合。每个模型都可以看作是置换了其他模型的输入(因为当我们将位置参数以错误的顺序传递给函数时,我们所有人都可能偶然地这样做)。
在这里,我们显示了模型A的所有三个模具结果的概率。不同的颜色对应于不同的概率。
最可能的结果是(1
对称化三个骰子的模型
对于三个骰子,有一个相似的模型将每个骰子均等地对待。
该?代表“可交换”。注意,如果对x,y和z进行任何重新排序,则此概率保持不变。但是,从模型为216种可能的结果分配的概率中可以看出,模型中仍然有很多结构。
在我们的情况下,可交换模型E和非对称模型A和B都位于同一轨道上。为了创建对称模型,我平均采用了三个模型,它们与A和B相似,但彼此置换。通常,如果我们有一个n个变量的模型,则可以写出作用在模型上的对称算子
平均值在所有可能的规则更改处,而我们互换变量的作用。注意,这是在轨道上的平均值。三个对象有六个排列,但由于公式中的对称性,我们只需要三个。
现在假设我有一些要计算的兴趣本身就是对称的。例如,我们可能对三个骰子的乘积超过10的概率感兴趣。对于所有三个模型,对于相同轨道上的任何模型,我们得到的答案都是完全相同的。从而...
自然轨道上的任何模型都可以
从掷骰子回到附近地区的流行病模型,并假设许多(即使不是最重要的)问题都是对称的,我们意识到在同一轨道上的任何模型都一样好。例如,假设我们对三天后的感染数量感兴趣。我们有
因此,只要我们靠近轨道,我们就会意外地得到正确的答案。
5.寻找轨道
我们可以使用IID模型和凸度调整找到正确的轨道。
De Finetti定理表明,IID模型的混合可能在轨道附近
根据乔和玛丽的经验,我们做一个最后的假设。我们不仅可以在轨道上选择任何模型,而且很有可能混合使用独立的,均匀分布的模型来达到目标??。在骰子图中,这意味着我们将考虑将每个骰子视为独立卷的模型混合。就我们的流行病模型而言,这意味着每个邻域都不与其他邻域交互。
当然,孤立地假设没有交互不是一个好的假设,但是通过采用这些模型的不同组合,我们可以建立依赖关系。我们将生成一堆可交换的模型。我们知道每个轨道上都有一个可交换的模型,因为您可以应用对称化操作,稍加思考便可以说服您确实存在一个模型。因此,当我们改变混合物时,我们将快速遍历轨道,访问许多可交换模型,甚至所有模型。而如果我们只是对具有10
这是“大局”的尝试:
它肯定很大。我们可以证明这一点吗?
无论自然模型多么复杂,都有一个对称的等价物。
可交换模型提供相同的答案(针对对称问题)
可交换模型是简单IID模型的混合物(de Finetti定理)
没关系,我们永远也不会掌握真理,而事实并非如此。没关系,我们也无法物理地实现将自然模型绕轨道移至可交换代表的对称算子。我们不必这样做(这很好,因为到了60个邻域,这是宇宙中每个电子的一个排列)。
我希望第二点在直觉上很明显。(物理学家:您可能会想这是将运算符从“ bra”移到“ ket”,并且可以根据需要以相反的方式定义置换对函数的作用)。
从本质上讲,第3点是de Finetti定理。从技术上讲,只有允许有符号的概率才是正确的,但实际上,无符号的概率可能就足够了。它说我们可以对邻域使用独立的均匀分布(iid)模型-这意味着我们只需要一个邻域模型,并且假定它们都独立地发展。这种分解是相当显着的,但是玛丽为我们准备了惊喜。
混合物中需要负重吗?
自然有可能选择了无法分解为iid模型的正加权组合的模型。再说一次,这可能不是世界末日。即使感觉有些奇怪,我们也可以在组合中允许一些小的负权重(假设我们分配给简单模型的权重被解释为概率)。Feynman和Dirac等更好的人在通往有用数字的道路上发现了负概率。
“负能量和概率不应被视为无稽之谈。它们在数学上是定义明确的概念,就像金钱的负数一样”-保罗·狄拉克(Paul Dirac),1942年
接下来是维格纳准概率分布...
[Wigner拟概率函数由Geek3提供]
我的观点:当出现负概率时,恐慌不是必须的-尽管实际上,它们不太可能首先出现,因为流行病是强依赖的典型案例(这减少了对负号的需要)。这就是为什么我声称de Finetti的原始定理适用于邻域的无限序列而不是有限的集合并没有多大关系,尽管我确信这部分论述可以受益于de Finetti定理的推广。
几年前,我很高兴与Gabor Szekely一起工作,后者证明了有关有限情况的许多结果。我的评论不像他那么聪明,更多地是基于数字实验。以下是有限情况下其他文章的链接。
混合确定性疾病模型
现在,使用独立的相同分布模型的简单混合还有另一个强大的理由-计算事物非常容易。例如:
每个社区的模型都是经典的流行病学模型,例如SIR
我们将它们混合在一起
我们不必相信社区真的是独立的,因为混合可以解决这些问题。现在,为了适应观察到的现象,我们可以:
使用现有结果进行模型预测
计算考虑到混合的凸度调整
反转凸度调整以找到正确的轨道
要继续,恒定参数SIR模型是:
现在允许根据某些变化函数在de Finetti混合物中变化β
其中eta具有关于人口密度rho的单位范数
那么在我们的混合模型中,在畜群免疫力下,易感人群的数量为
这是通常的答案除以eta的谐波平均值。谐波均值在许多分布中以封闭形式表示,您可以从Wikipedia页面上看到谐波均值。您可以对这些公式求反以纠正标准模型的错误程度,并且您将更接近自然模型的轨道。
在此警告一下,您真的希望对仅超过beta的情况进行平均,因此它接近谐波平均值,但并不完全相同。
混合随机模型
我认为,比混合确定性模型更好的方法(更符合de Finetti定理)是混合使用随机疾病模型。在这里,我建议您浏览图书馆的固定收益建模部分,而不仅仅是流行病学。
右侧的术语具有封闭形式的公式或良好的近似值,因此从原理上来讲,支持正确的变化量很容易。
带走
当在排列下的等价类级别上选择流行模型时,也就是说,选择对称组的轨道时,很难犯错误,也很难浪费精力绕轨道移动(而不是上下移动)遍历所有可交换模型)。在凸度调整的辅助下,独立的均匀分布模型的混合非常易于使用,并且de Finetti等人的工作告诉我们它们的跨度。结果之间强烈的依赖关系向我表明,德芬内特定理确实是流行病建模的基础。
当然,德芬内特定理对于统计学来说已经非常基础了,因为没有一个定理的话,它甚至还没有上升到“基本”定理的地位。另外,我们有代数基本定理,算术基本定理,微积分基本定理和线性代数基本定理,但没有统计基本定理。领先者一定是中央极限定理(毕竟,中央极限定理而不是中央极限定理-我最近才学到这一点),但也许我已经说服了德芬内蒂定理是另一个有力的候选人。
如果不是这样,流行病学也许就有机会。
相关文章
关于凸度调整以帮助找到正确的轨道的主题:
使用Vasicek模型协调牛群的免疫力和生长
反复接触导致感染减弱
牛群免疫力和谐波平均值
一种增加更多变化的方法(区域切换Vasicek)
与de Finetti定理有关的阅读(有限情况)
有限可交换序列Diaconis和Freedman
de Finetti的抽象有限可交换序列定理,Kerns和Szekely(收费墙)
Janson,Konstantopoulos和Yuan的替代方法

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!