全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1879 68
2022-04-24
英文标题:
《An Automatic Finite-Sample Robustness Metric: When Can Dropping a Little
  Data Make a Big Difference?》
---
作者:
Tamara Broderick, Ryan Giordano, and Rachael Meager
---
最新提交年份:
2021
---
分类信息:

一级分类:Statistics        统计学
二级分类:Methodology        方法论
分类描述:Design, Surveys, Model Selection, Multiple Testing, Multivariate Methods, Signal and Image Processing, Time Series, Smoothing, Spatial Statistics, Survival Analysis, Nonparametric and Semiparametric Methods
设计,调查,模型选择,多重检验,多元方法,信号和图像处理,时间序列,平滑,空间统计,生存分析,非参数和半参数方法
--
一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
英文摘要:
  We propose a method to assess the sensitivity of econometric analyses to the removal of a small fraction of the data. Manually checking the influence of all possible small subsets is computationally infeasible, so we provide an approximation to find the most influential subset. Our metric, the \"Approximate Maximum Influence Perturbation,\" is automatically computable for common methods including (but not limited to) OLS, IV, MLE, GMM, and variational Bayes. We provide finite-sample error bounds on approximation performance. At minimal extra cost, we provide an exact finite-sample lower bound on sensitivity. We find that sensitivity is driven by a signal-to-noise ratio in the inference problem, is not reflected in standard errors, does not disappear asymptotically, and is not due to misspecification. While some empirical applications are robust, results of several economics papers can be overturned by removing less than 1% of the sample.
---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-24 17:32:13
一个自动的有限样本稳健性度量:何时丢弃一点数据会产生巨大差异?塔玛拉·布罗德里克,瑞安·乔达诺*, Rachael Meager+2021年11月4日摘要我们提出了一种方法来评估经济计量分析对一小部分数据移除的敏感性。手动检查所有可能的小子集的影响在计算上是不可行的,因此我们提供了一个近似值来查找最有影响的子集。我们的度量标准“近似最大受影响扰动”,可自动计算常用方法,包括(但不限于)OLS、IV、MLE、GMM和变分贝叶斯。我们提供了逼近性能的有限样本误差范围。以最低的额外成本,我们提供了一个准确的样品灵敏度下限。我们发现,在推理问题中,灵敏度是由信噪比驱动的,不反映在标准误差中,不渐进消失,也不是由于误判。虽然一些实证应用是可靠的,但几个经济学论文的结果可以通过移除不到1%的样本来推翻。1导言理想情况下,决策者将利用经济学研究,为影响人们生计、健康和福祉的决策提供信息。然而,研究样本可能会以非随机的方式与这些决策的目标人群产生差异,这可能是因为在获取真正随机样本方面存在实际挑战,或者是因为人群在时间和地点上通常存在差异。当这些偏离理想的随机变量*同等贡献主要作者+同等贡献主要作者Tamara Broderick和Ryan Giordano获得了海军研究基金会早期关怀奖、NSF职业奖和陆军研究基金会叶奖的部分支持。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-24 17:32:18
我们感谢Avi Feller、Jesse Shapiro、Emily Oster、Michael Kremer、Peter Hull、Tetsuya Kaji、Heather Sarsons、Kirill Borusyak、Tin Danh Nguyen和我们所有申请书的作者,感谢他们提出的见解和建议。所有的错误都是我们自己的。通讯作者:Rachael Meager,可在r。meager@lse.ac.uk.sampling这些活动很小,人们可能会认为经验结论在受政策影响的人群中仍然适用。因此,谨慎的做法是询问研究样本的一小部分或少数数据点是否有助于确定其结果。在本文中,我们提供了一个简单的、可自动计算的指标,说明删除少量数据如何改变实证结论。我们证明,即使在标准误差很小的情况下,通过去除不到1%的样本,也可以逆转经济学中高绩效研究的某些实证结果,我们调查了原因。有几个原因值得关注的是,经验结论是否会受到有限样本的小百分比的实质性影响。在实践中,即使我们可以从直接感兴趣的人群中取样,也会有小部分数据丢失;要么调查人员和实施人员无法找到这些人,要么他们拒绝回答我们的问题,要么他们的答案在数据处理过程中丢失或混乱。由于这种缺失不能被安全地假设为随机的,研究人员可能会关心他们的实质性结论是否会被丢失的少量数据点推翻。类似地,在分析的任何阶段,担心样本构建中潜在非随机错误的研究消费者可能会对该指标感兴趣,该指标可以衡量astudy的结论对该问题的暴露程度。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-24 17:32:24
受少数数据点高度影响的结论在数据分析过程中更容易出现不良事件或错误,包括p-hacking,即使这些错误是无意的。然而,即使研究人员可以从给定的研究人群中构建一个完全随机的样本,我们决策的目标人群始终与研究人群不同,哪怕只是因为世界可能在研究和决策之间发生变化。出于这个原因,社会科学家往往渴望揭示关于世界的普遍真理,并提出比单一研究人群更广泛的政策建议。在本文中,我们建议直接测量一小部分数据样本对一项研究的核心主张或结论的影响程度。对于特定的分数α(例如,α=0.001),我们建议在从样本中移除这些观察值时,找出影响估计器最大变化的所有观察值中不超过100%的一组,并报告这种变化。例如,假设我们在实施一些经济政策干预后,发现住宅消费的平均增长具有统计意义。进一步假设,通过减少0.1%的样本(通常少于10个数据点),我们发现消费量的平均下降具有统计学意义。那么,要说有强有力的证据表明这种干预会导致即使是略有不同的人群的消费增加,这将是一个挑战。为了量化这种敏感性,我们可以考虑每一个可能的1。- α部分的数据,并对所有这些数据子集重新运行原始分析。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-24 17:32:30
但这种直接实现在计算上是禁止的。我们提出了一种适用于常见估计量的快速近似方法,包括广义矩法(GMM)、普通最小二乘法(OLS)、工具变量(IV)、最大似然估计量(MLE)、变分贝叶斯(VB)和所有平滑经验损失的最小值。大致上,我们给每个数据点一个权重,并在权重中应用泰勒展开(第2.1节和第2.2节)。我们的近似运算速度快、自动化程度高且易于使用,我们在GitHub上提供了一个名为“zamin fluence”的R包通过理论分析、仿真研究和应用实例,我们证明了我们的近似方法具有良好的性能。我们证明,当移除的样本百分比很小时,近似误差很低(第3.3节)。此外,对于单个额外数据分析的成本,我们可以在删除100α%数据后,提供分析中最坏情况变化的准确下限(第2.2.1节)。我们检查我们的指标是否检测到数据点的组合,这些数据点在从现实数据集中删除时会推翻实证结论(第4节)。例如,在俄勒冈州医疗补助研究(Finkelstein et al.,2012)中,我们可以确定一个包含不到原始数据1%的子集,该子集控制医疗补助对某些健康结果影响的迹象。在墨西哥小额信贷研究(Angelucci et al.,2015)中,我们在16500项研究中发现了一项单一的观察结果,该观察结果控制了ATE对家庭福利的影响。我们调查了这种敏感性出现时的来源,并表明它不在常规标准误差中。我们发现,结果在样本的一小部分影响范围内的暴露不需要反映模型误判问题,也不需要反映总体异常值的存在。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-24 17:32:36
根据我们的度量标准,灵敏度会上升,即使模型完全正确且数据集很大,但前提是信噪比较低:也就是说,如果索赔(信号)的强度相对于一个数量而言很小,该数量一致地估计了根N的限制分布乘以感兴趣数量的标准偏差(第3节)。例如,当残差方差与回归方差的比率很高时,这种“噪音”很大(第3.1节)。即使标准误差很小,这种噪声也可能很大,因为它不会随着N的增长而消失。我们研究了实证经济学论文中的几个应用,发现在实际分析中,我们的指标捕捉到的敏感性差异很大。在许多情况下,即使t统计量非常大且推断非常精确,某些估计治疗效果的迹象和意义也可以通过减少样本的不到1%来逆转;例如,参见第4.1节中的俄勒冈州医疗补助RCT(Finkelstein等人,2012)。在第4.2节中,我们检查了Progresa,Young(2019)发现,当保留两个数据点的非常可能子集时,重新运行分析在计算上是禁止的。为了说明,考虑一个需要1秒运行的分析;检查从一个400大小的数据集中每删除4个数据点需要33年以上的时间。详见第2节。https://github.com/rgiordan/zaminfluence.该名称代表“Z-估计近似最大影响”现金转移RCT(Angelucci和De Giorgi,2009)表明,剔除结果数据中的异常值并不一定会降低敏感性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群