全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1489 32
2022-05-25
英文标题:
《Model selection consistency from the perspective of generalization
  ability and VC theory with an application to Lasso》
---
作者:
Ning Xu, Jian Hong, Timothy C.G. Fisher
---
最新提交年份:
2016
---
英文摘要:
  Model selection is difficult to analyse yet theoretically and empirically important, especially for high-dimensional data analysis. Recently the least absolute shrinkage and selection operator (Lasso) has been applied in the statistical and econometric literature. Consis- tency of Lasso has been established under various conditions, some of which are difficult to verify in practice. In this paper, we study model selection from the perspective of generalization ability, under the framework of structural risk minimization (SRM) and Vapnik-Chervonenkis (VC) theory. The approach emphasizes the balance between the in-sample and out-of-sample fit, which can be achieved by using cross-validation to select a penalty on model complexity. We show that an exact relationship exists between the generalization ability of a model and model selection consistency. By implementing SRM and the VC inequality, we show that Lasso is L2-consistent for model selection under assumptions similar to those imposed on OLS. Furthermore, we derive a probabilistic bound for the distance between the penalized extremum estimator and the extremum estimator without penalty, which is dominated by overfitting. We also propose a new measurement of overfitting, GR2, based on generalization ability, that converges to zero if model selection is consistent. Using simulations, we demonstrate that the proposed CV-Lasso algorithm performs well in terms of model selection and overfitting control.
---
中文摘要:
模型选择很难分析,但在理论和经验上都很重要,尤其是对于高维数据分析。最近,最小绝对收缩和选择算子(Lasso)已应用于统计和计量经济学文献中。套索的一致性已在各种条件下建立,其中一些条件在实践中难以验证。本文在结构风险最小化(SRM)和Vapnik-Chervonenkis(VC)理论的框架下,从泛化能力的角度研究了模型选择问题。该方法强调样本内拟合和样本外拟合之间的平衡,这可以通过使用交叉验证来选择对模型复杂性的惩罚来实现。我们证明了模型的泛化能力与模型选择一致性之间存在着精确的关系。通过实现SRM和VC不等式,我们证明了在类似于OLS的假设下,Lasso对于模型选择是L2一致的。此外,我们还推导了惩罚极值估计量与无惩罚极值估计量之间的距离的概率界,该界主要由过拟合决定。我们还提出了一种基于泛化能力的新的过拟合度量GR2,如果模型选择一致,该度量将收敛到零。通过仿真,我们证明了所提出的CV-Lasso算法在模型选择和过拟合控制方面表现良好。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Statistics        统计学
二级分类:Computation        计算
分类描述:Algorithms, Simulation, Visualization
算法、模拟、可视化
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-25 08:44:55
从泛化能力和风险投资理论的角度进行模型选择的一致性,并将其应用于悉尼大学拉索因Xusoing经济学院、悉尼大学红建经济学院Timothy C.G.悉尼大学菲舍尔经济学院高维数据分析。最近,统计和计量经济学文献中应用了最小绝对收缩和选择算子(Lasso)。套索的一致性已在各种条件下建立,其中一些条件难以在实践中验证。本文在结构风险最小化(SRM)和Vapnik-Chervonenkis(VC)理论的框架下,从广义化能力的角度研究了模型选择问题。该方法强调样本内和样本外的平衡,这可以通过使用交叉验证来选择模型复杂性的惩罚来实现。我们证明了模型的泛化能力和模型选择一致性之间存在着精确的关系。通过实现SRMand和VC不等式,我们证明了模型选择的Lasso isL一致性,基于推广能力,如果模型选择一致,惩罚极值估计量和极值估计量之间的距离GR会收敛到零。通过仿真,我们证明了所提出的CV-Lasso算法在模型选择和过拟合控制方面表现良好。关键词:模型选择,VC理论,泛化能力,套索,高维数据,结构风险最小化,交叉验证。作者要感谢迈克·贝恩、科林·卡梅隆、彼得·霍尔和徐胜尚对早期草稿的宝贵意见。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-25 08:44:58
我们还要感谢第12次研究小组的参与者以及犹他州、新南威尔士州和墨尔本大学的研讨会参与者提出的有用问题和评论。Fisher感谢澳大利亚研究委员会拨款DP0663477的财政支持。电子邮件地址:n。xu@sydney.edu.au(宁旭),简。hong@sydney.edu.au(Jian Hong),蒂姆。fisher@sydney.edu.au(Timothy C.G.Fisher)arXiv:1606.00142v1【stat.ML】2016年6月1日从泛化能力和VC理论的角度进行模型选择的一致性,并将其应用于LassoJune 220161年2月。此外,鉴于高维数据分析在经济学中的日益普及,模型选择正成为统计推断的前沿。对于高维数据,维度诅咒(Bellman,1957)成为人们关注的焦点。在计量经济学中,维度诅咒是指当大量可能的预测因子(p)可用时,很难建立模型。当维度相对于给定样本大小较高时,有效样本大小(n/porn/log(p))相对较小,因此更难对种群空间进行有效采样。随着时间的推移,要估计的模型也变得更加复杂。当np=n时,模型可能会完美拟合数据,或者网格搜索可能很难用高维数据实现。ERP越高,非参数估计的收敛速度越低。对于高维数据,由于测量和估计中的缺失值导致的问题也会变得更严重。尺寸缩减。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-25 08:45:03
然而,该分析涵盖了一些非参数模型,如资产回归,还提供了一般非线性模型的近似值seeBelloni和Chernozhukov(2011)。模型选择通常涉及使用取决于数据的得分函数(Heckerman et al.,1995),如Akaike信息标准(Akaike,1973)、贝叶斯信息标准(Schwarz,1978)、交叉验证方法(Stone,19741977)和变量间的互信息得分(见Friedman et al.(1997)和Friedman et al.(2000))。Shao(1997)证明,在模型选择中,各种类型的信息准则(IC)和交叉验证是一致的。然而,要实现的优化。Tibshirani(1996)引入了选择算子(Lasso)。考虑线性回归模型y=Xβ+uwhere∈ 矩阵(n×,R)是响应变量X的向量∈ 矩阵(n×p,R)是协变量和u的矩阵∈ 矩阵(n×,R)是i.i.d.随机误差的向量。我们感兴趣的是估计参数向量β∈ Rp在senseAs Chickering et al.(2004)中可能是稀疏的,他指出,最好的子集选择方法无法处理大量变量,启发式最多30个。可写为minbλn(kY- 得到了Xbλk)+λkbλkγ(1)k·kγLγλ>bλλOLS估计量。套索对应于γ=1的情况。当γ=2时,我们γ>模拟研究。Lasso可被视为“收缩估计器”。James和Stein(1961)证明了系数小于或等于常数。通过限制kbλkt小于abixi,将为惩罚参数λ的每个值生成不同的模型。通常,通过交叉验证选择λXiλ,我们称之为CV Lasso算法。在经济学中,我们通常只观察一个样本:交叉验证将样本分为训练集和测试集。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-25 08:45:07
使用具有给定关联损失值的训练集估计感兴趣的参数。所选模型基于损耗最低的λ。瓦里安(2014)研究了大型数据集,因为与R.pand Fu(2000)等经济学常用的指标相比,它可能提供了更现实的预测绩效指标。Meinshausen和Bühlmann(2006)表明,套索在P>nppin实践中是一致的。Zhang和Huang(2008)研究了Lasso中的偏差,并得出其一致性James Stein估计量。参见附录2中的伪代码。或者,可以使用AIC或BIC选择λ。我们的模拟表明,CV套索略优于BIC套索,而BIC套索又优于AIC套索。(收敛)速度。等人(2008年)、Pistoresi等人(2011年)、Schneider和Wagner(2012年)、Kim和Swanson,而感兴趣的参数是通过常规程序估计的。Caner(2009)<γ<自适应套索过程。Kock和Callot(2015)研究了套索和估计器的特性,这些特性解释了力矩的强度和有效性。所选模型预测来自同一人群的新样本结果的能力。推广能力对于预测目的或研究新政策的影响非常重要。该观点基于Vapnik Chervonenkis(VC)理论(Vapnikdata和“样本外”数据。模型选择的一致性可以通过理论来建立。根据SRM,从一个样本中选择的模型可能无法很好地匹配另一个样本,主要有两个原因:两个样本可能存在不同的采样错误,或者从原始样本中选择的模型的复杂性可能设置不当。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-25 08:45:11
为了提高从样本估计的模型的泛化能力,SRM要求将估计模型应用于另一个样本时的误差最小化,称为“泛化误差”(GE)。“VC不等式”描述了样本内和样本外拟合之间的平衡。我们对极值估计的VC不等式(引理1和引理2)进行了调整和推广,并建立了一个无模型且大样本优度的模型。利用SRM,我们建立了Lasso型模型选择的一致性。那么≥ P通常施加在OLS上,而对于then<P情况,需要对XTX矩阵的SPARSEEIGEN值进行额外假设。给定一个样本,SRM可以通过选择λ在Lasso中实现,这相当于控制模型的复杂性。计量经济学中的问题。我们表明,在某些条件下,真实DGP唯一地影响总体中的最小泛化误差(命题1)。因此,我们证明了真正的DGP将由给定λ的套索选择(命题2)。然后,我们证明(定理2、3和4),经验GE的VC不等式和最小化不仅保证Lasso在模型选择上是一致的,而且Lasso比极值估计提供更好的样本外拟合。我们推导了惩罚极值估计量和无惩罚极值估计量之间的距离的概率界,其主要由过拟合决定。我们详细讨论了λ的选择如何影响模型选择。我们的证明策略强调了渐近性能和泛化能力之间的联系。我们没有将注意力局限于单个样本,而是将两者都考虑到了GE空间。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群