全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2845 79
2022-04-26
英文标题:
《Achieving Reliable Causal Inference with Data-Mined Variables: A Random
  Forest Approach to the Measurement Error Problem》
---
作者:
Mochen Yang, Edward McFowland III, Gordon Burtch and Gediminas
  Adomavicius
---
最新提交年份:
2020
---
英文摘要:
  Combining machine learning with econometric analysis is becoming increasingly prevalent in both research and practice. A common empirical strategy involves the application of predictive modeling techniques to \'mine\' variables of interest from available data, followed by the inclusion of those variables into an econometric framework, with the objective of estimating causal effects. Recent work highlights that, because the predictions from machine learning models are inevitably imperfect, econometric analyses based on the predicted variables are likely to suffer from bias due to measurement error. We propose a novel approach to mitigate these biases, leveraging the ensemble learning technique known as the random forest. We propose employing random forest not just for prediction, but also for generating instrumental variables to address the measurement error embedded in the prediction. The random forest algorithm performs best when comprised of a set of trees that are individually accurate in their predictions, yet which also make \'different\' mistakes, i.e., have weakly correlated prediction errors. A key observation is that these properties are closely related to the relevance and exclusion requirements of valid instrumental variables. We design a data-driven procedure to select tuples of individual trees from a random forest, in which one tree serves as the endogenous covariate and the other trees serve as its instruments. Simulation experiments demonstrate the efficacy of the proposed approach in mitigating estimation biases and its superior performance over three alternative methods for bias correction.
---
中文摘要:
将机器学习与计量经济分析相结合在研究和实践中越来越普遍。常见的经验策略包括应用预测建模技术,从可用数据中“挖掘”感兴趣的变量,然后将这些变量纳入计量经济学框架,目的是估计因果效应。最近的工作强调,由于机器学习模型的预测不可避免地不完美,基于预测变量的经济计量分析可能会因测量误差而产生偏差。我们提出了一种新的方法来缓解这些偏见,利用集成学习技术称为随机森林。我们建议使用随机森林不仅用于预测,还用于生成工具变量,以解决预测中嵌入的测量误差。当由一组树组成时,随机森林算法的性能最佳,这些树在各自的预测中是准确的,但也会犯“不同”的错误,即预测错误的相关性较弱。一个关键的观察结果是,这些属性与有效工具变量的相关性和排除要求密切相关。我们设计了一个数据驱动的程序,从随机森林中选择单个树的元组,其中一棵树作为内生协变量,其他树作为其工具。仿真实验证明了该方法在减少估计偏差方面的有效性,并且与三种不同的偏差校正方法相比,其性能优越。
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Computer Science        计算机科学
二级分类:Computers and Society        计算机与社会
分类描述:Covers impact of computers on society, computer ethics, information technology and public policy, legal aspects of computing, computers and education. Roughly includes material in ACM Subject Classes K.0, K.2, K.3, K.4, K.5, and K.7.
涵盖计算机对社会的影响、计算机伦理、信息技术和公共政策、计算机的法律方面、计算机和教育。大致包括ACM学科类K.0、K.2、K.3、K.4、K.5和K.7中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-26 14:40:51
通过数据挖掘变量实现可靠的因果推断:ARandom Forest方法解决测量误差问题Mochen Yang,Edward McFowland III,Gordon Burtch,Gediminas AdomaviciusUniversity of Minnesota,Carlson School of Management 2020年12月22日摘要机器学习与经济计量分析相结合在研究和实践中越来越普遍。常见的实证策略包括应用预测建模技术,从可用数据中“挖掘”感兴趣的变量,然后将这些变量纳入计量经济学框架,目的是估计因果影响。最近的研究表明,由于机器学习模型的预测不可避免地存在缺陷,基于预测变量的计量经济学分析可能会因测量误差而产生偏差。我们提出了一种新的方法来缓解这些偏见,利用集成学习技术称为随机森林。我们建议使用随机森林不仅用于预测,还用于生成工具变量,以解决预测中嵌入的测量误差。当由一组预测准确的树组成时,随机森林算法表现最好,是的,这些树也会犯“不同”的错误,即预测错误相关性较弱。一个关键的观察结果是,这些属性与有效工具变量的相关性和排除要求密切相关。我们设计了一个数据驱动的程序,从随机森林中选择个体树的元组,其中一棵树作为内生协变量,另一棵树作为工具。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:40:57
仿真实验证明了该方法在减少估计偏差方面的有效性,以及其优于三种替代偏差校正方法的性能。关键词:机器学习、计量经济学分析、工具变量、随机森林、因果推理1简介预测性机器学习的优势使研究人员能够从各种类型的数据中提取有用的信息,如文本和图像,否则很难或代价高昂地大规模编纂。例如,最近的学术研究强调,前沿预测技术现在能够从谷歌街景图像(Gebru等人,2017年)中出现的汽车模型和品牌推断出当地人群的社会经济属性(例如收入/种族分布),并基于dru g属性检测不良药物事件(Ryu等人,2018年)。这些测量现在可以大规模使用,而且成本很低,可以对经济学、医疗保健和许多其他领域的重要问题进行实证研究。事实上,许多研究人员已经开始这样做,首先使用预测机器学习来填充感兴趣的变量,例如,使用文本挖掘工具来预测文本情绪,然后将该变量作为独立的协变量纳入计量经济学模型。这种做法已在多个社会科学领域盛行,包括经济学(Jelveh等人,2015年)、政治学(Fong and Tyler,2017年)和管理学(Yang等人,2018年)。然而,最近的研究也指出,基于这一配方进行推断的尝试可能会因测量误差而受到内生性的影响(Yang等人,2018年)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:41:03
这是因为机器学习模型的预测不可避免地是不完美的,预测误差会作为测量误差遗留到后续的计量经济学模型中,导致参数估计存在偏差和不一致。测量误差可能会导致高估或低估系数(Loken和Gelman,2017年),即使机器学习模型达到合理的预测性能,偏差程度也可能很大(Yang等人,2018年)。因此,机器学习产生的协变量中测量误差产生的估计偏差可能会破坏后续用户推断和决策的有效性。在本文中,我们提出了一种新的方法来解决这个问题。我们的方法基于仪器变量回归的概念,这是计量经济学文献中解决内生性的一种行之有效的方法,包括源自测量误差的内生性(Greene,2003)。我们利用了这个问题集的一个显著的独特特性,即先应用机器学习,然后再应用回归。具体而言,我们利用了这样一个事实,即预测性机器学习模型通常是使用真实标签(假设可以完美测量)可用的数据进行训练和评估的,这些数据用于量化预测误差和模型性能。这组完美测量的数据为克服通常与评估仪器有效性相关的困难提供了一个独特的机会。为了找到候选工具,我们依靠随机森林(Breiman,2001),这是一种集成学习方法,它聚集了一组个体决策树(弱学习者),以得出准确的预测。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:41:10
之前的工作已经证明,随机森林的表现共同取决于(i)组成森林的树木产生相关预测的程度,以及(ii)树木产生弱相关预测误差的程度(Breiman,2001;Bernard等人,2010)。我们证明,这些概念与支撑有效工具变量的相关性和排除标准密切相关。基于此,我们希望探索随机森林集合,以识别个体树木的集合,这样一棵树的预测可能作为感兴趣的经济计量模型中的内生协变量,而其他树的预测则作为其工具,从而减轻由于测量误差而产生的估计偏差。根据工具变量和随机森林文献中的理论,我们开发了实现这一想法的算法,通过经验选择最佳的单株树集来减少系数估计中的偏差。我们称我们的程序为ForestIV。我们进行了两组综合模拟实验,考虑到数据挖掘的协变量是连续的和二进制的,因此分别受到连续测量误差或误分类的影响。在这两种情况下,我们都表明ForestIV可以有效地缓解估计偏差。我们还报告了ForestIV的敏感性分析,并将其性能与三种替代偏差校正方法进行了对比。应该注意的是,ForestIV提供了一种通用方法,用于通过机器学习生成的协变量纠正偏差,无论是来自结构化还是非结构化数据(例如文本或图像)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:41:16
对于涉及结构化数据的场景,随机森林广泛适用于各种有监督的机器学习问题,对于大量现实世界的预测问题,随机森林是最精确的技术之一(Fern’andez Delgado et al.,2014)。然而,即使在涉及非结构化数据的场景中,其他技术(例如深层神经网络)可能是最先进的,随机森林也可以有效地与它们结合。例如,随机森林可以用神经网络学习的中间表示进行叠加;也就是说,网络中间层的输出(对从非结构化数据中学习到的信息丰富的高级特征进行编码)可以作为随机森林算法的输入特征。值得注意的是,这种做法在Trans-sfer学习中非常常见,在Trans-sfer学习中,有监督的机器学习模型是基于另一种技术产生的特征构建的(Goodfello等人,2016)。我们的爸爸做出了几个显著的贡献。首先,我们从理论和实证上证明,所提出的ForestIV方法有效地解决了计量经济学模型中的估计偏差对机器学习产生的协变量中的测量误差的影响。因此,ForestIV提高了机器学习与计量经济分析相结合的过程中产生的因果推断和决策的稳健性。其次,我们设计了数据驱动程序,利用标记的数据(用于构建和评估机器学习模型)从经验上选择最适合偏差校正目的的工具。第三,ForestIV代表了一种从随机森林技术的输出中自动获取候选仪器的新方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群