全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1452 48
2022-04-28
英文标题:
《Bias-Aware Inference in Regularized Regression Models》
---
作者:
Timothy B. Armstrong and Michal Koles\\\'ar and Soonwoo Kwon
---
最新提交年份:
2020
---
英文摘要:
  We consider inference on a regression coefficient under a constraint on the magnitude of the control coefficients. We show that a class of estimators based on an auxiliary regularized regression of the regressor of interest on control variables exactly solves a tradeoff between worst-case bias and variance. We derive \"bias-aware\" confidence intervals (CIs) based on these estimators, which take into account possible bias when forming the critical value. We show that these estimators and CIs are near-optimal in finite samples for mean squared error and CI length. Our finite-sample results are based on an idealized setting with normal regression errors with known homoskedastic variance, and we provide conditions for asymptotic validity with unknown and possibly heteroskedastic error distribution. Focusing on the case where the constraint on the magnitude of control coefficients is based on an $\\ell_p$ norm ($p\\ge 1$), we derive rates of convergence for optimal estimators and CIs under high-dimensional asymptotics that allow the number of regressors to increase more quickly than the number of observations.
---
中文摘要:
我们考虑在控制系数大小的约束下对回归系数的推断。我们证明了一类基于控制变量相关回归子的辅助正则回归的估计量精确地解决了最坏情况偏差和方差之间的折衷。我们基于这些估计器推导出“偏差感知”置信区间(CI),在形成临界值时考虑了可能的偏差。我们证明,对于均方误差和CI长度,这些估计量和CI在有限样本中是接近最优的。我们的有限样本结果基于正态回归误差和已知同态方差的理想设置,我们提供了未知和可能异方差误差分布的渐近有效性条件。针对控制系数大小的约束基于$\\ell_p$范数($p\\ge 1$)的情况,我们推导了高维渐近条件下最优估计量和CI的收敛速度,这使得回归器的数量比观测值的数量增加得更快。
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Statistics        统计学
二级分类:Methodology        方法论
分类描述:Design, Surveys, Model Selection, Multiple Testing, Multivariate Methods, Signal and Image Processing, Time Series, Smoothing, Spatial Statistics, Survival Analysis, Nonparametric and Semiparametric Methods
设计,调查,模型选择,多重检验,多元方法,信号和图像处理,时间序列,平滑,空间统计,生存分析,非参数和半参数方法
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-28 16:05:21
正则化回归模型中的偏差感知推理*Timo thy B.Armstrong+耶鲁大学Michal Koles\'ar大学校长宋宇权耶鲁大学2020年12月29日摘要我们考虑在控制系数大小的约束下对回归系数的推断。我们证明了一类基于对控制变量感兴趣的回归器的辅助正则回归的估计量b精确地解决了最坏情况偏差和方差之间的一个偏差。我们根据这些估计器得出“偏差感知”置信区间(CI),其中考虑了构成临界值的可能偏差。我们证明,对于平均误差和CI长度,这些估计量和CI在有限样本中接近最优。我们的有限样本结果基于正态回归误差和已知同方差的理想设置,我们提供了未知和可能的异方差分布的渐近有效性条件。关注控制系数大小的约束基于lpnorm(p≥ 1) 在高维渐近条件下,我们得到了最优估计和CI的收敛速度,这使得回归器的数量比观测值的数量增长得更快。*本文的部分内容包括工作文件阿姆斯特朗和科尔斯ar(2016)第4节中的材料,该文件在最终出版版本(阿姆斯特朗和科尔斯ar,2018年)中取出。这篇文章的一个更清晰的版本以“正则化回归模型中的最优推理”为题分发我们感谢MarkLi和Ulrich M¨uller提供他们的代码。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-28 16:05:24
Koles\'ar感谢斯隆研究奖学金的支持。+电子邮件:蒂莫西。armstrong@yale.edu——电子邮件:mkolesar@princeton.edu§电子邮件:soonwoo。kwon@yale.edu1在产品中,我们对线性回归模型中的标量系数β的估计和推断感兴趣,i=wiβ+z′iγ+ε,i=1,n、 (1)其中控制的k向量可能较大。在这种情况下,经典的普通最小二乘法(O LS)估计量的方差太大,无法产生有用的结果,而且当k>n时,它甚至没有定义。为了改善这一点,正则化回归文献考虑修改OLS目标函数以惩罚较大的γ值,从而以增加偏差为代价降低方差。这些方法中最流行的是使用套索(Tibshirani,1996)或其他不同的套索l惩罚(例如,坎德斯和陶,2007;贝洛尼等人,2011)。有大量文献(参见B–uhlmann和van de Geer,2011年的综述)表明,在稀疏γ假设下,这些估计值具有良好的均方误差(MSE)性质。为了进行推断,几篇论文提出了基于“双套索”估计量的CIs(见Belloni等人,2014年;Javanmard和Montanari,2014年;van de Geer等人,2014年;Zhang和Zhang,2014年),其渐近校正依赖于γ稀疏性的速率条件。然而,在经济学的许多应用中,稀疏性假设可能并不令人信服。此外,尚不清楚这种方法在给定的有限样本中隐含着什么样的稀疏性约束。在本文中,我们采用了不同的方法。我们的方法基于对控制系数的大小施加先验界,使用惩罚函数Pen(·)形式化:我们假设Pen(γ)≤ C
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-28 16:05:27
在我们领先的产品规格中,我们认为这是一种惩罚lpnorm,但我们的框架可以包含γ的任何限制,将其置于凸对称集中。例如,如果z′iγ是某个光滑函数的基近似,我们可以定义Pen(γ)以包含该函数导数的边界。正则参数C起着类似于稀疏界的作用。在已知的高斯方差假设下,我们得到了理想的方差估计。我们还研究了当k>> n、 最后,我们讨论了使用异方差估计来形成我们的CI的可行版本,以及它们的符号有效性的条件。我们的主要有限样本结果表明,这类估计器精确地解决了问题。虽然我们排除了稀疏约束(非凸约束),但我们的结果对这种情况也有影响。有关讨论和比较,请参见第5节。最坏情况下的偏差和方差之间的权衡可以通过以下方法获得:(1)使用Pen(·)作为权重λ的惩罚函数回归wion-Zi,然后(2)使用该回归的残差作为工具回归Yion-Zi。基于这些估计器的CI可以通过使用包含估计器最坏情况偏差的临界值来构建,我们表明,该临界值可以作为步骤(1)中正则化回归的副产品自动获得。这些CI是“偏差感知”的,因为它们解释了估计器的潜在有限样本偏差,因此在理想高斯设置中,它们在有限样本中是有效的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-28 16:05:30
我们展示了如何选择调谐参数λ来优化结果估计器的均方误差,或者优化结果CI的长度。我们还考虑了偏差感知CI在高维渐近条件下的行为>> n、 和(wi,z′i′)是独立于i的,方差矩阵的特征值从零开始并在单位内。我们推导了当Pen(γ)是一个常数时,最优CI收缩的速率lpnorm。我们证明了,在k>> n和Cdoes不随n收缩,最优CI收缩比n慢-1/2,因此bia项渐近占主导地位。此外,我们还表明l在这种情况下,即使有一个国家也无法提高这一比率l在wion-zi的回归中受到约束,并且在这两个回归中都有一定程度的稀疏性。作为我们方法的一个关键输入,我们要求研究人员明确指定约束Pen(γ)大小的规则参数C。我们的效率范围表明,在形成CI时,自动选择C是不可能的。因此,我们建议采用灵敏度分析的形式,并报告由C的最大值给出的“细分”值,以使给定的结果(如拒绝特定的零形合)成立。我们讨论了如何通过将C与回归R联系起来来指导C的选择,并提出了一个较低的C的CI,该CI可用作规格检查,以确保cho值不会太低。正如我们在第5节中进一步讨论的那样。2.不选择规则约束的CI(例如C,或者对于基于稀疏性的方法,稀疏界)显式涉及这些参数的隐式选择。我们的有限样本方法的优点是使这些选择明确。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-28 16:05:33
这确保了我们的覆盖率保证和效率界限不只是基于在特定样本中可能难以评估的调整参数的“渐进承诺”。我们的结果与几股轻时代的理论有关。我们的程序和效率与inIbragimov和Khas’minskii(1985年)、Donoho(1994年)、Low(1995年)以及Armstrong和Koles’a r(2018年)开发的凸高斯模型中线性泛函的一般理论有很大关系。特别是,最优估计值在结果上是线性的,CI是以此类估计值为中心的“双线性”固定长度置信区间(FL CI)。我们的研究结果补充了近年来将这种方法应用于各种美国环境的文献,包括Armstrong和Koles\'ar(2020a,b),Koles\'ar和Rothe(2018),Imbens和Wager(2019),Rambachanand Roth(2019),Noack和Rothe(2020),以及Kwon和Kwon(2020)。Muralidharan等人(2020年)将本文中的方法应用于阶乘设计和交互效应边界的实验。我们推导的估计量的类别,尤其是结合wion-zito估计β的回归的想法,与针对这个问题提出的各种估计量有关,至少可以追溯到Robinson(1988)关于部分线性模型的工作。我们的结果为这一想法提供了一个新的有限样本调整,以及给出该回归的最佳形式和包含该回归的最佳估计量的精确结果。我们的结果考虑了Pen(·)的一般形式,它在一些特殊情况下简化为现有的估计量:在这种情况下,我们的结果可以用来推导新的偏差感知CI来伴随这些估计量。Li(1982)的结果表明,当峰值对应于l标准Li和M¨uller(2020)考虑加权lnormPen(γ)=(Pni=1(z′iγ))1/2。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群