全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1066 6
2022-04-16
摘要翻译:
快速准确地检测社区疫情对于应对新冠肺炎疫情死灰复燃的威胁至关重要。疫情检测的一个实际挑战是平衡准确性和速度。特别是,随着拟合窗口的延长,估计精度提高,但速度下降。本文提出了一个基于广义随机森林(GRF)的机器学习框架来平衡这种权衡,并将其应用于县级新冠肺炎疫情的检测。该算法根据影响疾病传播的相关特征,如社交距离政策的变化,为每个县选择自适应拟合窗口大小。实验结果表明,在新冠肺炎疫情爆发前7天的病例数预测中,我们的方法优于任何非自适应窗口大小选择。
---
英文标题:
《Estimating County-Level COVID-19 Exponential Growth Rates Using
  Generalized Random Forests》
---
作者:
Zhaowei She, Zilong Wang, Turgay Ayer, Asmae Toumi, Jagpreet Chhatwal
---
最新提交年份:
2020
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
英文摘要:
  Rapid and accurate detection of community outbreaks is critical to address the threat of resurgent waves of COVID-19. A practical challenge in outbreak detection is balancing accuracy vs. speed. In particular, while estimation accuracy improves with longer fitting windows, speed degrades. This paper presents a machine learning framework to balance this tradeoff using generalized random forests (GRF), and applies it to detect county level COVID-19 outbreaks. This algorithm chooses an adaptive fitting window size for each county based on relevant features affecting the disease spread, such as changes in social distancing policies. Experiment results show that our method outperforms any non-adaptive window size choices in 7-day ahead COVID-19 outbreak case number predictions.
---
PDF下载:
-->
English_Paper.pdf
大小:(500.78 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-16 11:18:32
ML4H扩展抽象Arxiv指数:1-10,2020年健康机器学习(ML4H)2020年使用广义随机森林估计县级新冠肺炎指数增长率赵伟她*zshe3@gatech.eduGeorgia技术研究所zelong Wang*zwang 937@gatech.eduGeorgia技术研究所turgay Ayer Ayer@isye.gatech.eduGeorgia技术研究所Toumi Atoumi@mgh.Harvard.eduMassachusetts总医院jagpreet Chhatwal jagchhatwal@mgh.Harvard.eduMassachusetts总医院,哈佛医学院abstrapid和准确检测社区疫情对于应对新冠肺炎暴发检测的一个实际挑战是平衡准确性和速度。特别是,当估计精度随着更长的配置窗口而提高时,速度会下降。本文提出了一个利用广义随机森林(GRF)来平衡这一贸易的机器学习框架,并将其应用于县级COVID19疫情的检测。该算法根据疾病传播的相关特征,如社交距离政策的变化,为每个县选择自适应的窗口大小。实验结果表明,该方法在7天前的新冠肺炎疫情病例数预测中优于任何非自适应窗口sizechoices。早期和准确地检测社区疫情对于应对新冠肺炎疫情的威胁至关重要。具体地说,当事件病例估计呈指数增长时,流行病爆发就被认为是流行病爆发。此外,疫情的潜在影响还可以指数增长率来衡量,因为较高的增长率表明疾病传播更快。最后但并非最不重要的是,对于一个已知的流行病学模型(例如,SIR,SEIR),流行病爆发的指数增长率与其基本繁殖数R之间存在一一对应关系,基本繁殖数R是流行病爆发强度的一种常用度量(Lipsitch et al.,2003)。因此,疫情爆发事件的指数增长率是检测疫情的最重要的“无模型”参数(Chowell et al.,2003)。获得疾病爆发的准确指数增长率估计仍然是流行病学的一个挑战(Ma et al.,2014)。具体而言,选择指数增长率估计的窗口大小以平衡疫情检测的速度和准确性是非常重要的。一方面,更可取的是并行窗口,因为较大的样本量将减少疫情指数增长率估计的方差。(c)2020年Z.She、Z.Wang、T.Ayer、A.Toumi和J.Chhatwal。另一方面,估计县级新冠肺炎指数增长率,更短的窗口更好地检测早期疫情,尤其是如果这些疫情是由最近的政策变化如学校重新开放驱动的。在目前的实践中,这个识别窗口大小被视为一个超参数,它要么由用户直接指定(C.F.the University of Melbourne(2020)),要么由一些交叉验证方法确定(C.F.Chowell et al.(2007)),本文开发了一个机器学习框架,通过专用特征工程和GRF(C.F.Atheyet al.(2019)),平衡了疫情检测的速度-准确性,并将其应用于县级新冠肺炎疫情检测。具体来说,该算法根据一系列丰富的特征为每个县选择一个自适应的筛选窗口大小,这些特征可以控制疾病的传播,如口罩授权、社会距离政策、疾控中心的社会脆弱性指数、测试的变化和阳性测试率。此外,对于拥有Insu)Cient数据以捕捉最近政策变化的县,该算法将所有相关的事件病例增长趋势汇集在一起县和整个COVID-19流行病历史上为这些政策变化进行调整。2.背景2.1.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-16 11:18:39
指数增长模型和指数增长速率说明疫情暴发,疫情发生日的病例数为c∈c·BURN,即:疫情爆发日的病例数为c∈c·BURN,即疫情爆发日的病例数为c∈c·BURN,疫情爆发日的病例数为c∈c·BURN,疫情爆发日的病例数。It,c受指数增长模型控制,It,c=I0,cexp{rt}ln(It,c)=ln(I0,c)+rt。(1)(Ma et al.,2014).这里r是突发事件的指数增长率1。关于事件病例数的流行病学定义以及我们如何计算它,请参见附录B。对于所有县,c∈c,而I0,捕获CountyC指数病例增长开始时的初始事件病例数。为了获得县级新冠肺炎事件病例数的最新指数增长率,我们估计了(1),ln(It,c)=αt,c+rt,ct+εt,c,(2)的瞬时对应体,其中因变量是对数线性化的事件病例数ln(It,c);自变量为t天。感兴趣的参数是c县在t,rt,c天的新冠肺炎事件病例指数增长率。截距项αt,c是一个参数,它捕获了c县在疫情开始时的对数线性化的初始发病数。εt,cis错误术语。值得注意的是,指数增长率rt,cin(2)在天t和县c中都不同。换句话说,我们对估计新冠肺炎事件病例的瞬时县一级指数增长率感兴趣。具体来说,由于美国与新冠肺炎相关的法规每天都在变化(C.F.Raifman et al.(2020)),由这些政策规定的县一级指数增长率也每天都在变化。因此,为了检测最近的疫情,文内需要估计最近的发病率指数增长率。这个瞬时指数增长率rt,c,类似于流行病学文献中常用的瞬时繁殖数(c.F.Fraser(2007);Cori et al.(2013)),捕捉到了c县事件病例的预计指数增长率,如果未来的新冠肺炎法规仍然像T.2.2天一样。相关特征一个固定的ectingcovid-19疾病蔓延COVID19事件病例的指数增长率可以通过多种估计县级新冠肺炎指数增长率的因素来确定,这些因素从新冠肺炎法规的日常变化到县之间人口密度和医疗保健资源的差异。因此,为了估计(2)中定义的瞬时县级指数增长率rt,我们需要控制这些日级和县级异质性。如果我们有捕捉上述因子A的相关特征Xt,c∈rm,并以瞬时县级指数增长率t,c为例,我们可以识别Wooldridge(2010)所定义的条件平均部分治疗e-ect rt,c(Xt,c):=e[rt,cXt,c]。当这些相关特征a-covid-covernment diseast传播可用时,我们可以根据常见的“冗余”假设(c.F.Wooldridge(2010))重写(2)asln(It,c)=αt,c(Xt,c)+rt,c(Xt,c)t+εt,c(3),即假设1±t∈t,±c∈c,±Xt,c∈RME[Ln(It,c)t,αt,c,rt,c,Xt,c]=E[Ln(It,c)t,αt,c,rt,c]3。模型估计本节讨论了如何估计(3)中所包含的新冠肺炎事件病例rt,c(Xt,c)的指数增长率。具体来说,我们在§3.1中提出了估计问题,然后在§3.2.3.1中提出了我们的估计算法。首先,我们需要下面的“不可混淆性”假设(c.F.Rosenbaum and Rubin(1983)):2假设2±T∈T,±Xt,c∈rme[ln(It,c)-αT,c(Xt,c)-rt,c(Xt,c)tt,Xt,c]=0.2。本研究中使用的相关特征列表参见附录C,即day t独立于所有以特征向量Xt,C为条件的不可观察的异质性。在假设2下,我们可以通过辅助变量γ(t):=[1(t);1(t);1(t);...推导出(3)=0,(4)的下列矩方程:πXt,c∈Rm,e['A(t)(ln(It,c)-αt,c(Xt,c)-rt,c(Xt,c))Xt,c]=0,(4)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-16 11:18:45
当t=s时,1s(t)等于1。然而,我们注意到矩方程(4)不能识别指数增长率rt,c(Xt,c)。具体地,将矩方程组(4)定义为未知参数{αt,c(Xt,c),rt,c(Xt,c)}t∈t,c∈C1的个数正好是矩方程组个数的两倍。为了解决这一问题,我们假设从第1天到第1天,第T*天的指数增长率等于平均因果反应(C.F.Abadie(2003);Angrist和Imbens(1995)),即假设3 tut∈T\\\\\\0},C∈C,Xté,C∈RMRT,C(Xté,C)=e[ln(It,C)1 Té(T)=1,Xté,C]e[t1té(T)=1,Xté,C]-e[t1té(T)=1,Xté,C][t1té(T)=1,Xté,C]-e[t1té(T)=1,Xté,C]-e[ln(It,[t1tü(T)=1,Xté,C]-e[t1tü-1(T)=1,Xté,C]参数{αT,C(Xt,C),rt,C(Xt,C)}T∈T,C∈,在假定3.3.2下由矩方程(4)精确地定义。估计算法:在上述假设下,Athey等人提出的GRF算法可以估计COVID-19事件病例(3)的指数增长函数。(2019)。具体来说,假设3意味着一个县c在一天内的指数增长率估计县级新冠肺炎指数增长率est*是由一个目标数据“块”{(it*,c,xt*,c),(it*-1,c,xt*-1,c)}确定的。因此,在估计rt*,c(Xt*,c)时,我们可以将面板数据集{(It,c,Xt,c)}t∈T,c∈c,划分为c×t*数据块,并将与目标块“相似”的数据块池起来,为该估计构造一个自适应窗口大小。在附录A中,算法1提供了构造这些数据块的伪代码,算法2解释了我们如何将这些数据库输入到GRF算法中以获得兴趣估计。性能评估将我们的方法与非自适应窗口大小选择作为基准,我们比较了这些方法7天前预测的平均绝对百分比误差(MAPE)。具体来说,我们使用NYTimesCOVID-19数据集(C.F.《纽约时报》(2020))作为每个县每日报告病例的来源。如图1和表1所示,ourmethod的性能优于具有2天、4天、8天或16天调整窗口大小的方法。具体而言,图1显示,在NYTimes COVID19数据集中的FIRIGRST记录COVID-19案例100天后,当有足够的历史数据用于GRF算法进行有意义的分区时,我们的方法提供了一致更好的性能。此外,表1表明,即使将早期地图包括在比较中,我们的方法仍然具有4种方法中最好的中位数地图。最后但并非最不重要的一点是,当只比较非自适应窗口大小选择的性能时,没有明显的最佳选择。虽然回声较短的窗口大小通常会导致较低的中值MAPEs(C.F.表1),但它仍然经常被较长的窗口大小选择所超越(C.F.图1)。图1:MAPE曲线图(4天移动平均)表1:中值RMSE和MAPE(4天移动平均)方法MAPEOLS.WSIZE=16 0.0585OLS.WSIZE=8 0.0529OLS.WSIZE=4 0.0483OLS.WSIZE=2 0.0455 GRF 0.04235。结论和未来工作在本工作中,我们开发了一个新的框架,允许GRF充分平衡COVID-19疫情检测的速度和准确性。这个估计框架可以很容易地扩展到其他流行病学问题,在这些问题上,窗口大小会影响模型的性能。估计县级新冠肺炎指数增长率。治疗反应模型的半参数工具变量估计。计量经济学杂志,113(2):231-263,2003。Joshua D Angrist和Guido W Imbens。变处理强度模型中平均因果关系的两阶段最小二乘估计。美国统计协会杂志,90(430):431-442,1995。Susan Athey,Julie Tibshirani,Stefan Wager,et al.广义随机森林。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-16 11:18:51
《统计年鉴》,47(2):1148-1178,2019。疾病控制和预防中心。疾病控制和预防中心社会脆弱性指数2018数据库。可查阅https://www.atsdr.cdc.gov/placeandhealth/svi/data_documentation_download.html,2018。杰拉尔多·乔维尔、保罗·费尼莫尔、梅丽莎·卡斯蒂略-加索和卡洛斯·卡斯蒂略-查韦斯。Sars在安大略省、香港和新加坡的爆发:诊断和隔离作为控制机制的作用。理论生物学杂志,224(1):1-8,2003。杰拉多·乔维尔,西村弘,路易斯·马·贝当古。从每日病例报告数据比较估计格鲁恩扎大流行的繁殖数量。《皇家社会接口学报》,4(12):155-166,2007。安妮·柯里,尼尔·M·弗格森,克里斯托弗·弗雷泽,西蒙·考切兹。一个新的框架和软件来估计流行病期间的时间间隔繁殖数量。《美国流行病学杂志》,178(9):1505-1512,2013。克里斯托弗·弗雷泽。在新出现的流行病中估计个人和家庭的生殖数量。PloS one,2(8):E758,2007.Marc Lipsitch,Ted Cohen,Ben Cooper,James M Robins,Stefan Ma,Lyn James,Gowri Gopalakrishna,Suk Kai Chew,Chorh Chuan Tan,Matthew H Samore,et al.严重急性呼吸系统综合症的传播动力学和控制。科学,300(5627):1966-1970,2003。马俊玲,乔纳森·杜肖,本杰明·姆博尔克,大卫·杰·伊恩。估计最初的流行病增长率。数学生物学通报,76(1):245-260,2014。J Raifman,K Nocka,D Jones,J Bor,S Lipson,J Jay,P Chan.Covid19美国国家政策数据库。可查阅www.tinyurl.com/statepolicies(2020年9月18日访问),2020年9月。Paul R Rosenbaum和Donald B Rubin.《倾向评分在因果关系观察研究中的核心作用》,《生物统计学》,70(1):41-55,1983。大西洋。COVID跟踪项目。可在https://covidtracking.com/,2018年。《纽约时报》。美国冠状病毒(Covid19)数据。可在https://github.com/nytimes/covid-19-data(访问2020-09-07),2020年。墨尔本大学。冠状病毒10天预报。可访问https://covid19forecast.science.unimelb.edu.au/(2020年9月18日访问),2020年9月。估计县级新冠肺炎指数增长率美国人口普查局。2019年美国人口普查地名录档案。可查阅https://www.census.gov/Geographies/reference-files/time-series/geo/gazetteer-files.html,2019年。Je横断面和面板数据的计量分析。麻省理工学院出版社,2010年。附录A.伪代码预见算法1:块变换输入:{(It,c,Xt,c)}t∈t,c∈Coutput:{F eature[t,c]}t∈t,c∈c,{Y[t,c,1],Y[t,c,0]}t∈t,c∈Cfor cà0 to c dofortà1 to t do1。将事件案例数foreach blockY[t,c,1]èln(It,c)-ln(It-1,c)Y[t,c,0]è02归一化。生成初始粗OLS估计值foreach blockDep={Y[t,c,0],Y[t,c,1]}Ind={0,1}rols,αOLS=OLS(Dep=Ind)3。附加每个块的特征数据[t,c]é{Xt,c,rols,αols,it-1,c}最终实现县级新冠肺炎指数增长率算法2:GRF训练日t=输入:{F eature[t,c]}t∈[0,1,...,t|],c∈c,{Y[t,c,1],Y[t,c,0]}t∈[0,1,...,t|],c∈Coutput:{rt|,c(Xt|,c)}c∈C1。计算day t*[t*]ào{z≤t*t*z(mod2)}[t*-1]ào{z≤t*t*-1z(mod2)}2的同余类。为第téXé{xt}t∈[0,1,...,té]天指定特征变量,其中wt=(feature[t,c]如果t∈[té]feature[t+1,c]如果t∈[té-1](5)3。为第téYé{yt}t∈[0,1,...,té]天指定结果变量,其中t=(Y[t,c,1]如果t∈[té]Y[t,c,0]如果t∈[té-1](6)4。为第téWé{wt}t∈[0,1,...,té]天指定处理变量,其中wt=(1if t∈[té]0if t∈[té-1][(7)5.将(X,Y,W)引入到GRF算法{rt*,c(xt*,c)}c∈c:/GRF(X,Y,W)附录B。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-16 11:18:57
流行病学资料对于这项工作,我们希望为流行病学家和政府决策者提供有用的病例轨迹估计,我们理想地希望测量活跃病例数的增长速度sat:=yt-dt-rt,t≥0天,(8)其中Y是迄今为止的累计病例数,D是累计死亡数,R是累计恢复病例数。这直观地捕捉到了仍然“传染性”病例的数量,因为我们可以向新冠肺炎保证,那些已经康复或死亡的人不再能够感染其他人。不幸的是,由于康复病例的数量不再报告,我们无法直接计算活跃病例的数量。而其他著作(C.F.the University of Melbourne(2020))则用rt≈(yt-22-dt-22,如果t≥22yt-dt,如果0≤t<22)近似得出康复病例数。(9)这里的基本假设是,那些被感染但在22天后没有死亡的人康复了。然而,在县级测试这个假设时,我们发现这个假设不成立,因为总有一天这个新的近似活跃病例数会变成负数。因此,我们依赖于一个常用的代理:事件病例数,如果t≥22yt,如果0≤t<22,(10)是22天内新病例的数量,是传染性病例的有用代理。估计县级新冠肺炎指数增长率附录c特征数据我们使用的所有特征数据,即{Xt,c}t∈t,c∈c,都可以在网上公开获得。在本节中,我们将描述这些数据集是什么,以及我们如何将它们合并到我们的工作中。2019年美国人口普查地名录文件2019年美国人口普查地名录文件(C.F.美国人口普查局(2019))用于获得美国人口普查局登记的每个县的地理位置(经纬度中心)。这为GRF进一步拆分提供了空间特性空间。疾病控制和预防中心社会脆弱性指数2018数据库社会脆弱性指数(SVI)数据库(C.F.疾病控制和预防中心(2018))是县级社会经济因素的汇编,如失业率、贫困率、教育程度等。这些特征也包括在我们的方法中。新冠肺炎美国政策数据库(CUSP)CUSP数据库(C.F.Raifman等人(2020))跟踪每个州何时实施和结束政策,如口罩授权、封锁、应对新冠肺炎疫情的经济政策。因此,它是捕捉每个州每天策略变化的特征矢量。由于这些政策是全州范围的,我们自然而然地将其扩展到县一级。COVID跟踪项目来自COVID跟踪项目(C.F.TheAtlantic(2018)),我们获得了每个州进行的聚合酶链反应、抗体和抗原的每日数量及其阳性率。这些功能也在我们的Framework中用作功能。附录D.PerformanceEvaluationD.1的附加结果。MAPE图2:MAPE图(3日移动平均线)图3:MAPE图(4日移动平均线)估算县级新冠肺炎指数增长率图4:MAPE图(5日移动平均线)图5:MAPE图(6日移动平均线)图6:MAPE图(7日移动平均线)D.2
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群