全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1549 33
2022-04-19
摘要翻译:
自综合控制方法提出以来,基于人工控制构建的反事实来衡量单个(或几个)治疗单元的治疗(干预)效果已成为应用统计学和经济学中的一种流行做法。在高维背景下,我们经常使用主成分或(弱)稀疏回归来估计反事实。我们是否使用了足够的数据信息?为了更好地估计价格变化对销售的影响,我们提出了一个高维相关数据反事实分析的一般框架。该框架既包括主成分回归,也包括稀疏线性回归作为具体案例。它同时使用因子和特质成分作为预测因子进行改进的反事实分析,形成了一种称为因子调整正则化处理方法(FarmTreat)的评价方法。我们令人信服地证明,在许多应用中,使用因子或稀疏回归都不足以进行反事实分析,信息增益的情况可以通过使用特质成分来实现。我们还发展了理论和方法来正式回答公共因素是否足以估计反事实的问题。此外,我们考虑了一种简单的重采样方法来进行治疗效果的推断,以及bootstrap测试来获取特质成分的相关性。基于巴西一家大型零售连锁店的销售数据,我们应用所提出的方法评估了价格变化对一组产品销售的影响,并证明了在治疗效果评估中使用额外的特殊成分的好处。
---
英文标题:
《Do We Exploit all Information for Counterfactual Analysis? Benefits of
  Factor Models and Idiosyncratic Correction》
---
作者:
Jianqing Fan, Ricardo P. Masini, Marcelo C. Medeiros
---
最新提交年份:
2021
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--
一级分类:Statistics        统计学
二级分类:Methodology        方法论
分类描述:Design, Surveys, Model Selection, Multiple Testing, Multivariate Methods, Signal and Image Processing, Time Series, Smoothing, Spatial Statistics, Survival Analysis, Nonparametric and Semiparametric Methods
设计,调查,模型选择,多重检验,多元方法,信号和图像处理,时间序列,平滑,空间统计,生存分析,非参数和半参数方法
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
英文摘要:
  The measurement of treatment (intervention) effects on a single (or just a few) treated unit(s) based on counterfactuals constructed from artificial controls has become a popular practice in applied statistics and economics since the proposal of the synthetic control method. In high-dimensional setting, we often use principal component or (weakly) sparse regression to estimate counterfactuals. Do we use enough data information? To better estimate the effects of price changes on the sales in our case study, we propose a general framework on counterfactual analysis for high dimensional dependent data. The framework includes both principal component regression and sparse linear regression as specific cases. It uses both factor and idiosyncratic components as predictors for improved counterfactual analysis, resulting a method called Factor-Adjusted Regularized Method for Treatment (FarmTreat) evaluation. We demonstrate convincingly that using either factors or sparse regression is inadequate for counterfactual analysis in many applications and the case for information gain can be made through the use of idiosyncratic components. We also develop theory and methods to formally answer the question if common factors are adequate for estimating counterfactuals. Furthermore, we consider a simple resampling approach to conduct inference on the treatment effect as well as bootstrap test to access the relevance of the idiosyncratic components. We apply the proposed method to evaluate the effects of price changes on the sales of a set of products based on a novel large panel of sale data from a major retail chain in Brazil and demonstrate the benefits of using additional idiosyncratic components in the treatment effect evaluations.
---
PDF下载:
-->
English_Paper.pdf
大小:(4.98 MB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-19 19:09:18
我们利用所有的信息进行反事实分析吗?因子模型和特性校正的优点--普林斯顿大学运筹学和金融工程学系李嘉图·马西尼切特统计和机器学习,普林斯顿大学圣保罗经济学院(EESP),格图利奥·巴尔加斯基金会马塞洛·C·梅德罗斯经济学系里约热内卢天主教大学(PUC-Rio)2022年1月12日摘要最优定价,即确定商品利润或收入最大化的价格水平,是零售业的一项重要任务。要选择这样一个数量,需要从产品需求来估计价格弹性。回归方法通常不能恢复这种弹性,由于混杂的电子产品和价格的内生性。因此,通常需要随机实验。然而,弹性可能是高度异构的,这取决于商店的位置,例如。由于随机化经常发生在城市一级,标准的直接投资方法也可能失败。可能的解决方案是基于测量单个(或仅仅几个)治疗单元上的治疗的方法,基于从艺术控制中构建的反事实。例如,对于治疗组中的每个城市,可以从未治疗的位置构建反事实。本文应用一种新的高维统计方法对巴西一家大型零售商的日销售额价格变化进行了测量,该方法将主成分(因子)和稀疏回归相结合,形成了一种称为因子调整正则化处理评价法(FarmTreat)的方法。这些数据包括400多个城市的商品日销售额和价格。所考虑的产品属于甜和糖果类别,并在2016年和2017年进行了实验。我们的结果纠正了高度异质性的假设,在不同的城市中产生了非常直接的定价策略。JEL代码:C22、C23、C32、C33。关键词:反事实估计、合成控制、ArCo、处理e----ects、因子模型、高维测试、最佳定价、零售、价格设定、需求。致谢:我们感谢一位副编辑和三位匿名参考人士的非常有见地的评论。Fan的研究得到了NSF资助DMS-1712591、DMS-2052926、DMS-2053832和ONR资助N00014-19-1-2120。Masini和Medeiros的研究得到了CNPq和Capes的部分支持。我们还感谢ThiagoMilagres在数据集方面的帮助,以及D-Lab@PUC-RIO的所有团队提供了一个出色的研究环境。1介绍自Abadie and Gardeazabal(2003)和Abadie,Diamond and Hainmueller(2010)提出合成控制(SC)方法以来,基于从Arti firecialControls构建的反事实(即在没有干预的情况下不可观察的结果)对单个(或几个)处理单元进行治疗评估已经成为应用统计学中的一种流行做法。通常,这些人工(合成)对照是从干预前后一段时间内提供的未经治疗的对照面板中建立的。大多数基于人工对照的方法依赖于对治疗单元和干预前测量的潜在的大量来自同行的解释变量之间的统计模型的估计。反事实的构建面临着许多技术和经验上的挑战。通常,要估计的反事实模型的维数比可用的观测数大,并且必须施加一些限制。此外,目标变量的兴趣是非平稳的。最后,对反事实动力学进行推断并不简单。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-19 19:09:24
尽管Abadie和Gardeazabal(2003)的原始工作能够处理其中的一些挑战,但已经提出了一些扩展;最近的讨论见Doudchenko和Imbens(2016),Athey和Imbens(2017),或Abadie(2021)。在零售商行业中,需要确定产品的最优价格,因此,我们开发了一种新的方法来构造反事实,该方法嵌套了其他几种方法,并对所有可用的信息进行了探索。本文提出的方法适用于平稳和非平稳数据,也适用于高维和低维数据。1.1异质弹性和最优价格。产品最优价格的确定在零售业中具有重要意义,所谓最优价格是指利润或收入最大化的价格。为了确定这一数量,我们需要从需求方面估计价格弹性。这并不是一项简单的任务,因为标准的回归方法通常无法恢复混淆电子产品和众所周知的价格内生性的感兴趣的参数。我们的新数据集包括巴西amajor零售商的每日价格和销售数量,在城市一级汇总。公司拥有1400多家分店,分布在全国400多个城市,覆盖了全国所有的州,无论从销售额还是在公司总收入中所占的份额来看,Chosendes产品都非常重要。总体目标是通过反事实分析计算城市一级的最佳价格。我们的方法确定了由于价格变化而导致的销售损失,并给出了需求弹性估计,进一步用于计算最优价格。为了确定每种产品的最优价格,我们进行了随机对照实验。更具体的是,对于每种产品,一组城市(治疗组)的价格发生了变化,而另一组城市的价格保持在原来的水平(对照组)。不同产品的价格变化幅度从5%到20%不等。此外,三种产品的价格有所上升,另外两种产品的价格有所下降。治疗组和对照组的选择是根据每个城市的社会经济和人口学特点以及商店在每个城市的分布情况进行的。然而,必须强调三个事实。首先,在随机化过程中,我们没有使用关于每个城市的产品销售量的信息,这是我们的输出变量。这样,我们就避免了任何选择偏差,并且可以保持利益干预与结果无关的假设是有效的。其次,尽管根据城市特点,我们在群体间保持了同质均衡,但平行趋势假说被违背,即使在控制了可观测数据后,每个城市的销售量和消费者行为也存在很强的异质性。这意味着价格弹性是相当不均匀的,最优价格可以在城市之间显著地相互影响。最后,数据中存在明显的季节性模式,并有共同的因素反映了各城市间的销售动态。我们的结果反映了干预中的异质性模式,产生了各城市间的房地产弹性和最优价格。此外,这些影响也影响到产品的质量。总体而言,在治疗组中,超过20%的个体的价格变化具有统计学意义,从利润最大化的角度来看,最优价格通常低于实际价格。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-19 19:09:30
因此,我们建议,从利润最大化的角度来看,最优政策是改变那些具有统计意义的城市的价格。如果不可能获得统计意义的结果,可能需要进一步的实验来评估这些城市价格变化的e值。由于合同协议,1.1.2方法创新在前一小节讨论的实证应用的推动下,本文提出了一种包括主成分回归(因子)和稀疏线性回归的方法,用于估计反事实,以更好地评估价格变化后一系列产品的销售情况。它利用隐藏但可估计的特性成分的信息,在对等方和被处理方之间的映射中不存在稀疏性或近似稀疏性。此外,我们还表明,当干预后观测的数量被填满时,类似于Masini和Medeiros(2021)或Chernozhukov,Wüuthrich和Zhu(2020)中提出的检验可以应用。最后,我们还考虑了一个高维检验来回答使用特质成分是否真的能更好地估计治疗效果的问题。我们的框架可以应用于更广泛的预测和估计领域,因此我们将更抽象和一般性的理论发展留给了一篇论文(Fan et al.,2021)。所提出的方法包括四个步骤,称为FarmTreat。在一种方法中,去掉了外生(对感兴趣的干预)变量的e-ects,例如,异质性确定性(非线性)趋势、季节性和其他日历e-ects,和/或已知的离群值。在第二步中,基于firerst-step模型的残差估计因子模型。ideais是为了发现驱动被处理单元和对等体动态的公共组件。第二步是放松稀疏性假设的关键。为了探索各单元之间潜在的剩余关系,第三步建立了因子模型中的残差之间的LASSO回归模型,称之为因子模型中的特质成分。稀疏性只在第三个步骤中被施加,它比在第二个步骤中的稀疏性假设限制更少。注意,这三个步骤都是在干预前阶段进行的。最后,在第四步中,假设同伴不支持干预,对干预后阶段的模型进行了预测。受Fan、Ke和Wang(2020)的启发,我们将这里发展起来的the methodology称为FarmTreat,即用于治疗评估的因子调整正则化方法。上述过程既适用于平稳数据,也适用于确定性非线性和异构趋势的情况。在单位根的情况下,该程序应该在假设因子遵循一个综合过程(有或无漂移)的情况下进行。在这种情况下,我们的结果来自Bai and Ng(2008)的第7节。在此步骤之后,可以恢复目标变量和反事实变量的水平,并进行推理。我们证明了瞬时处理的估计量是无偏的。这一结果使得使用残差再取样程序成为可能,就像Masini和Medeiros(2021)或Chernozhukov,Wüuthrich和Zhu(2020)中的程序一样,在不依赖于干预后阶段的任何渐近结果的情况下,检验关于ECT治疗的假设。Masini and Medeiros(2021)或Chernozhukov,Wüuthrich and Zhu(2020)的检验过程与以下结论相似:第一篇论文考虑仅用预干预样本估计的模型,而第二篇论文主张使用全样本估计模型。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-19 19:09:36
根据作者和我们的模拟,使用完整的数据在小样本中产生了更好的大小属性。我们相信我们的结果具有普遍的重要性,原因如下。首先也是最重要的一点是,在panela中所有单元之间的相互依赖程度很高的应用程序中,关于回归Coe的稀疏性或近似稀疏性假设似乎并不合理。此外,由于交叉依赖关系,也违反了LASSO或其他高维正则化方法的一致性所需的条件(Fan,Ke,and Wang,2020)。其次,对趋势、季节性e-ects和/或异常值进行筛选似乎是合理的,以便通过删除无信息的术语来突出潜在的干预e-ects。最后,建立被治疗单位和稀疏对等单位之间的剩余互依赖性模型,以收集有关单位的相关结构的所有相关信息也很重要。在综合控制文献中标准的治疗是外生的假设下,我们得到了干预后治疗单位前一个时间的治疗量的无偏估计。如果治疗是外源性的,只针对对等体,我们可以确定特定干预对被治疗单位的作用,即完全知道干预的时间。这可能是对几个宏观经济应用的兴趣,例如,英国退出欧盟关于英国经济的电子摘要,记录了事件发生的日期。我们进行了一项模拟研究,以评估本文讨论的估计和推理过程的样本性质。我们表明,即使在很小的样本中,所提出的方法也是相当有效的。此外,作为一个案例研究,我们使用一个来自巴西一个拥有1400多家商店的主要零售连锁店的新数据集来估计价格变化对产品销售的影响。我们展示了本文所讨论的方法如何用于估计异质需求价格弹性,并进一步用于确定多种产品的最优价格。此外,我们还证明了特质成分确实为更好地估计弹性系数提供了有用的信息。1.3与文献中的文献相比较,扩展了原有的SC方法,并在只处理单个单元的情况下导出了反事实的估计量。我们从与卡瓦略、马西尼和梅德罗斯(2018年)的比较开始。在本文中,我们既不考虑稀疏性,也不考虑介入前和介入后的渐近性。为了证明我们的结果,我们只需要干预前的样本发散。此外,通过将因子结构与稀疏性结合起来,我们放宽了关于被处理单元与其对等体之间关系的弱稀疏性假设。此外,我们考虑到了不均匀的趋势,这些趋势可能不像前面提到的论文中的那样是有界的;类似卡瓦略、马西尼和梅德罗斯(2018)的设置,见李和贝尔(2017)。Masini和Medeiros(2019,2020)考虑了当数据非平稳时,可能有单位根时的合成控制扩展。然而,前一篇文章将弱稀疏性引入到被处理单元与节点之间的关系中,而后一篇文章只处理了低维情况。低维非平稳情形在其他许多文献中都有讨论。例如,参见Hsiao,Ching,and Wan(2012)、Ouyang and Peng(2015)、Du and Zhang(2015)、Li(2020)等。与DiD估计器相比,基于SC方法的许多估计器的优点是三倍。首先,我们不需要接受治疗的人数增加。事实上,当有一个单一的被处理单位时,就会出现严重的情况。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-19 19:09:42
第二个,也是最重要的是,我们的方法是为这样的情况而开发的,即1个未经处理的单位可能会从被处理的单位中大大增加ER并且不能形成一个控制组,即使在一组可观察到的条件下也是如此。例如,在本文中的应用程序中,一个特定处理城市的销售动态无法与任何其他城市完全匹配。另一方面,可能存在一组城市,在没有处理的情况下,组合销售与被处理单位的销售足够接近。文献中的另一个典型例子是,如果用几个未经处理的地区的国内生产总值的线性组合来解释特定地区的国内生产总值(GDP);参见Abadie和Gardeazabal(2003)。最后,SC方法及其扩展通常是一致的,即使没有平行趋势。最近,Gobillon和Magnac(2016)通过估计一个正确指定的线性面板模型,用严格的外生回归和交互式的e-ects表示为具有异质负载的许多公共因素,从而推广了DiD估计量。当T(样本量)和n(对等数)都趋于完全时,它们的理论结果依赖于双渐近性。作者允许常见的混杂因素具有非线性确定性趋势,这是考虑估计时假设的线性平行趋势假设的进一步化。我们的方法非常重要地借鉴了Gobillon和Magnac(2016)的方法,因为我们在考虑了公共因素后,考虑了特质单元之间的交叉依赖。最后,Chernozhukov,Wuthrich和Zhu(2020a,b)提出了一种通用的共形推理方法,可用于上述模型的建立。当样本量较小时,我们强烈建议使用Chernozhukov,Wuthrich和Zhu(2020)中描述的方法对干预进行推理。Chernozhukov,Wüuthrich和Zhu(2021)对Carvalho,Masini和Medeiros(2018)提出了一个很好的推广,并提出了一种新的推理方法来检验高维和潜在非平稳性下的干预假说。然而,他们的方法在三个方面与我们的方法不同。首先,更重要的是,他们的结果是基于干预前和干预后样本的差异。其次,他们的推论程序设计成只在平均水平上检验假设。我们的程序可以应用于一个广泛的假设检验类。最后,他们认为模型中的所有变量都有完全相同的(随机)趋势。这是一个比本文考虑的框架更受限制的框架。1.4论文的组织论文的其余部分组织如下。我们在第2节中给出了所提出的方法和应用的概述。我们在第3节中提出了设置和假设,并在第3.2节中陈述了关键理论结果。第3.3节介绍了推论过程。我们在第5节给出了模拟实验的结果。第4节致力于为决策者提供指导,在第6节中可以找到实证应用的讨论。第七节总结全文。2方法该数据集是tZit的一个实现,即:1\\i\\n,1\\t\\tu,其中Zitis感兴趣的变量和Wits描述潜在的协变量,包括季节性项和/或确定性(非线性和异构)趋势,例如。假设我们有兴趣估计在t`1处发生干预后,对参数单位的变量z1te的影响。我们根据同龄人Z1T估计了一个反事实:“pZ2t,。被认为受到干预的Beuna。..,ZNTQ。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群