全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1466 31
2022-04-26
英文标题:
《Asymptotic Normality for Multivariate Random Forest Estimators》
---
作者:
Kevin Li
---
最新提交年份:
2021
---
英文摘要:
  Regression trees and random forests are popular and effective non-parametric estimators in practical applications. A recent paper by Athey and Wager shows that the random forest estimate at any point is asymptotically Gaussian; in this paper, we extend this result to the multivariate case and show that the vector of estimates at multiple points is jointly normal. Specifically, the covariance matrix of the limiting normal distribution is diagonal, so that the estimates at any two points are independent in sufficiently deep trees. Moreover, the off-diagonal term is bounded by quantities capturing how likely two points belong to the same partition of the resulting tree. Our results relies on certain a certain stability property when constructing splits, and we give examples of splitting rules for which this assumption is and is not satisfied. We test our proposed covariance bound and the associated coverage rates of confidence intervals in numerical simulations.
---
中文摘要:
回归树和随机林是实际应用中常用的有效非参数估计方法。Athey和Wager最近的一篇论文表明,任意点的随机森林估计都是渐近高斯的;在本文中,我们将这个结果推广到多元情况,并证明了多个点的估计向量是联合正态的。具体来说,极限正态分布的协方差矩阵是对角的,因此在足够深的树中,任意两点的估计都是独立的。此外,非对角项的范围是由捕捉两点属于结果树的同一分区的可能性的数量确定的。在构造分裂时,我们的结果依赖于一定的稳定性,并且我们给出了分裂规则的例子,对于这些规则,我们的假设是和不满足的。我们在数值模拟中测试了我们提出的协方差界和相关的置信区间覆盖率。
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-26 12:08:13
多元随机森林估计器的渐近正态性Technologykkli@mit.edu*2020年12月16日抽象分析。Athey和Wager最近的一篇论文表明,逐点随机森林估计是交感高斯的。在本文中,我们将他们的结果推广到多元情况,并证明在多个点上的估计向量是联合渐近正态的。具体来说,极限正态分布的协方差矩阵是对角的,因此在足够深的树中,任意两点的估计都是独立的。我们证明了o-对角项由与两个给定点属于结果树的同一片叶子的概率有关的量所限定。我们的结果依赖于基础树估计的某些稳定性,并且我们给出了一些分裂规则的例子。我们还提供了一个启发式和数值模拟来测量有限样本中的反对角线项的衰减。1简介树和随机森林是Breiman[]首次引入的非参数估计。Givena feature spaceX Rp和一组数据点{(Xi,Yi)} X×R,树估计器通过沿给定轴重复拆分X,将特征空间递归地划分为轴对齐的不重叠超矩形。树估计在测试点X的预测∈ 然后是一个包含X的超矩形中着陆的目标的集合;如果是连续的,则聚合为样本平均值,该树也称为回归树。树估计器的深度定义为到达终端超矩形前的最大分裂数,控制树估计器的复杂性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 12:08:19
有两种常用的方法来控制复杂性:“boosting”方法生长深度较大的树,然后通过修剪树(即,在非末端超矩形处进行预测)或引入decayfactor来降低复杂性;取而代之的是“套袋”方法在数据的不同子集上生长一组浅树,并对这些树进行平均,以进行最终预测。装袋的直觉是,生长在不同亚群上的树并不是完全相关的,因此聚集减少了变异和变异*我要感谢我的顾问阿尔贝托·阿巴迪和维克托·切尔诺朱科夫审阅了本文的多份草稿。此外,Sophie(Liyang)Sun、Ben Deaner、14.386班(2020年春季)研讨会的参与者以及麻省理工学院计量经济学午餐研讨会的参与者提供了非常有用的反馈。我还要感谢Stefan Wager教授帮助我理解随机森林模型中协方差估计的机制。当特征空间X不需要是矩形时,可以将X放大到一个矩形集合X,该集合定义为包含X的所有矩形集合的交点。arXiv:2012.03486v3[econ.EM]2021年1月30日平衡偏差-方差权衡。这种类型的估计器被称为随机森林,它们是本文的重点。自21世纪初引入随机森林以来,由于与竞争模型相比具有多种实用优势,随机森林已成为应用数据分析中越来越重要的工具。首先,高质量的随机林库随时可用,流行的实现可扩展到数百个分布式工作者[,]。此外,树估计器和随机林背后的核心算法足够简单,可以快速原型化定制实现,估计器不受特征异常值的影响,丢失的数据可能很容易合并。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 12:08:25
首先,它们的结构自然地与大多数应用程序的空间位置一致:也就是说,与轴相关的潜在目标函数是连续的。最后,树模型是可解释的,具有明确的特征重要性概念[6,7],支持将其用作模型选择工具[8]。影响。在鲁宾的潜在结果框架[]中(见[]以了解概述),根据Whetheria接受治疗的情况,个体(0)Y(1)。统计员可以访问IID观测{Xi,Wi,Yi≤ 我≤ n} 谢维∈ {,}YiY(Wi)iinterest是xτ(x)处的治疗效果:- E(Y(1)- Y(0)|Xi=x)。(1) Y(0)iY(1)iτx假设。一个常见的假设是无依据性,即治疗状态取决于Y(1)和Y(0)是否取决于Xi。在这个假设下,τ(x)=E易Wie(x)-1.- Wi1- e(x)| Xi=x, 其中e(x)=P(Wi=1 | Xi=x)。(2) 在这里,关键函数ise(x)被称为倾向评分,是协变量亚群治疗的概率x;参见[]推导和含义。机器学习更重要的是,无依据性还意味着τ(x)=E(Y | W=1,x=x)- E(Y | W=0,X=X),(3),因此可以通过拟合两个模型来估计τ(X),一个是在W=1的样本子集上,另一个是在W=0上。有序的分类特征。外汇→ R(例如,为了测试零假设:f(x)=0)需要了解基本估计量^f(x)的收敛率或渐近分布,其中x是感兴趣的点。然而,目标函数的泛函通常也是令人感兴趣的:例如,两个不同亚群的处理效果(即f=τ)的差异由数量f(x)表示- f(\'x),(4)x'xin与加权处理效应有关,其中一个亚群xis被赋予一个重要权重,建模为密度u(x)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 12:08:32
在这种情况下,f的相应函数为∈Xf(x)du,其中u不一定是x(5)的密度,并且积分在域x.ff(x)上,而且是不同点的估计值sf(x)和f(`x)之间的相关性。作为一个具体例子,考虑函数τ(x)和简单差τ(x)- τ(`x)。我们有τ(x)- τ(x)=[E(Y | W=1,x=x)- E(Y | W=1,X=\'X)]- [E(Y | W=0,X=X)- E(Y | W=0,X=\'X)]=:A- B.(6)Ab如上所述,wi=1和wi=0的数据集的两个“一半”。因此,估算值^A和^b是独立的,因此VaR(^A-^B)=Var^A+Var^B。然后,方差^A和^B取决于它们各自在x和^x处的随机森林估计的协方差。本文研究了一类随机森林模型的相关结构,其渐近分布在[]中首次得到。我们找到了充分的条件,在此条件下,不同点的随机森林估计的渐近协方差相对于各自的方差消失;此外,我们还提供了基于计算的有限样本启发法。据我们所知,这是关于随机森林估计器相关结构的第一组结果。本文基于并扩展了[]中的结果,后者又基于Related,后者通过结合矩条件的知识,将本文考虑的随机森林模型扩展到更广泛的目标函数类。本文建立的稳定性结果已出现在[],他们研究了随机森林和逻辑回归的算法稳定性概念,并得出了推广误差保证。与本文密切相关的还有[]和【】在这种背景下,我们的论文为将有限样本统计理论应用于随机森林提供了一个垫脚石,其中协方差矩阵的边界起着核心作用。本文的结构如下。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 12:08:40
在第2节中,我们介绍了随机森林模型,并陈述了我们的结果所需的假设;第三部分是我们的主要理论贡献;第4节以第3节为基础,讨论了在有限样本设置中有用的启发式方法;第5节总结。所有证据见附录。2模型设置和假设2。1.树估计概述本文的目的是研究随机森林估计的渐近高斯逼近。自始至终,我们假设一个随机样本{Zi=(Xi,Yi):1≤ 我≤ n} 给定X×Ris,其中每个xi是属于子集X的特征或协变量的向量 p-dimensionalYi的Rpof∈ rxix特征空间或特征域。给定数据集{Zi}ni=1,树估计器通过进行轴对齐拆分递归地划分特征空间。具体来说,轴对齐的拆分是一对(j,t),其中j∈ {,…,p}是分裂坐标,t∈ Ris分裂指数;给定一个子集 十、 分裂(j,t)分成左右两半{X∈ R:xj<t}和{x∈ R:xj>t},(7)xjjxX{Zi≤ 我≤ n} 例如,当目标为连续时,常用的选择是(j,t)=arg minj,~tXi:Xi∈L(易)- uL)+Xi:Xi∈R(易)- uR)(8)式中,L=L(~j,~t)和R=R(~j,~t)是由分割(~j,~t)得到的X的两半,其中uLanduR分别是对应特征Land inLandR的targets的平均值。xlrlr分别指通过使用满足特征sillcriterion的数据子集计算的分割forLis。当每个节点满足停止标准时,该过程完成;在它之前是一个超矩形与X的交点。这个序列以自然的方式响应一棵树;我们将在拆分过程中出现的半空间称为节点,以及最终分区终端节点的元素。根据(7),我们排除了点位于矩形“边”上的边情况。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群