样本选择模型的双机器学习

2022-4-24 17:56:23

用于样本选择模型的双机器学习模型SmicHela Bi*，Martin Huber **和Luk a a LaSeer-ERS + *卢森堡社会经济研究所和卢森堡大学*福里堡大学经济与计量经济学和商业分析中心，圣彼得堡州立大学+马泰基贝尔大学数学系Stract：本文考虑了由于样本选择或结果损耗，仅对一个子群体观察结果时，离散分布治疗的评估。为了进行识别，我们将治疗分配的可观察到的选择假设与关于结果损耗/样本选择过程的可观察到的选择或工具变量假设相结合。我们也考虑动态混杂，即协变的标准杆数选择和结果可能（至少部分地）被治疗所影响。为了以数据驱动的方式控制一组潜在的高维治疗前和/或治疗后协变量，我们将治疗评估的双机器学习框架应用于样本选择问题。我们利用（a）内曼正交、双重稳健和有效的评分函数，在基于机器学习的结果、治疗或样本选择模型估计中，治疗效果估计的稳健性可以缓和正则化偏差，以及（b）样本分割（或交叉匹配）可以防止过度匹配偏差。我们证明了所提出的估计器在关于机器学习者的特定正则性条件下是渐近正态和根不相容的，并在模拟研究中研究了它们的有限样本性质。我们还将建议的方法应用于就业团队的数据，以评估培训对小时工资的影响，而小时工资仅以就业为条件。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:56:30

该估计器在统计软件R的因果权重包中可用。关键词：样本选择、双机器学习、双稳健估计、效率得分。JEL分类：C21。我们有Alyssa Carlson、大卫·卡普兰、Peter Mueser和密苏里堪萨斯大学的与会者的评论。通讯地址：Michela Bia，卢森堡社会经济研究所，11 Porte des SciencesHumaines，Maison des Sciences，4366 Esch sur Alzette/Belval，卢森堡，Michela。bia@liser.lu米歇尔。bia@ext.uni.lu; Martin Huber，福里堡大学，Bd. de P Eulle 90, 1700弗里堡，瑞士，马丁。huber@unifr.ch; Luk\'aˇs La Offers，马特吉贝尔大学，塔乔夫斯切霍4097411班斯克阿比特里卡，斯洛伐克，卢卡斯。拉弗ers@gmail.com.La offers承认斯洛伐克研究与发展机构提供的支持，合同号为APVV-17-0329和VEGA-1/0692/20.1引言在许多旨在评估治疗或政策干预因果效应的研究中，非随机结果损耗或样本选择使实证分析变得复杂。例如，当工资仅针对工作人员的选择性子群体进行观察时，对教育回报的估计，或者当学生非随机地放弃考试时，教育干预的效果，如私立学校的学生在大学入学考试中的接触。此外，在观察性研究中，治疗分配通常不是随机的，这意味着研究人员面临双重选择问题，即对治疗的选择和结果的可观察性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:56:36

大量文献根据可观察的假设，通过assuminga选择来解决治疗选择问题，这意味着治疗与随机分配一样好，取决于观察到的治疗前协变量，例如参见Imbens（2004）和Imbens and Wooldridge（2009）的综述。此外，越来越多的研究解决了如何以基于机器学习算法的数据驱动方式控制潜在高维协变量向量中的关键混杂因素的问题，例如，参见Chernozhukov、Chetverikov、Demirer、Du flo、Hansen、Newey和Robins（2018）的双机器学习框架。在本文中，我们将双机器学习框架应用于存在样本选择或结果损耗的二元或多重离散处理的评估。在确定假设方面，我们将治疗任务的可观察到的选择假设与关于结果损耗/样本选择过程的可观察到的选择或工具变量假设相结合。之前，Huber（2012）和Huber（2014b）在基于逆概率加权的平均治疗效果（ATE）估计中考虑了这些假设，但是，对于预选（或固定）协变量。作为方法学的进步，我们推导出了在双重选择下评估治疗效果的双重稳健和有效的评分函数，并证明它们满足所谓的Neyman（1959）正交性。后一个属性允许通过基于机器学习的特定条件下的治疗、结果和损耗模型估计，以数据驱动的方式控制协变量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:56:43

因此，重要混杂因素的子集不需要先验已知（但必须包含在整个协变量集中），这在具有大量可能用作控制变量的协变量的高维数据中特别有用。我们还考虑了基于可观察性假设的序贯选择的动态混杂，这与动态治疗E.ECT文献中发现的假设密切相关，例如，iRubin（1986）、罗宾斯（1998）和LeNeHER（2009）。这一假设允许共同影响样本选择和结果的协变量本身可能是治疗的函数，ascenario在样本选择模型中被广泛忽略，尽管它在实证应用中可能具有相关性。特别是当治疗分配和样本选择过程之间存在很大的时间差时，利用治疗后协变量来解决选择结果混淆似乎比单纯依靠治疗前协变量（如基于可观察假设的常规选择）来解决治疗内生性和样本选择更具说服力。继Chernozhukov、Chetverikov、Demirer、Du flo、Hansen、Newey和Robins（2018）之后，我们证明了基于我们的得分函数（根据各种识别假设定制）的治疗效果估计在特定的正则性条件下是根n一致且渐近正态的，尤其是在-机器学习者的1/4收敛性。双机器学习框架的另一个条件是防止由于不同估计步骤之间的相关性而产生的过度匹配偏差。这是通过一方面估计治疗、结果和选择模型，另一方面在数据的不同部分估计治疗效果来实现的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:56:49

正如切尔诺朱科夫、切特韦里科夫、德米雷尔、杜弗洛、汉森、纽伊和罗宾斯（2018年）所述，我们随后交换了数据部分的角色，并平均了过度处理的影响，以防止渐进效率损失，这一过程被称为交叉拟合。Wealso还提供了一项模拟研究，表明我们的估计器在考虑了数千个观测值的模拟设计中，在根均方误差和覆盖率（通过置信区间）方面表现良好。最后，我们给出了一个以女性为样本的实证说明，这是一项针对美国弱势青年的大型培训项目——就业团队的研究。我们运用DML估计器来评估学术和职业培训对小时工资的影响，小时工资仅以就业为条件进行观察，在项目分配一年和四年后，找到一些长期积极影响的统计证据。我们的论文涉及一系列关于样本选择和选择性结果消耗的研究。其中一部分文献基于可观测假设（也称为随机缺失（MAR）条件）对磨损过程进行建模。后者强调了样本选择和结果的条件独立性，并给出了卵巢和治疗等观察信息。例如鲁宾（1976年）、利特尔和鲁宾（1987年）、卡罗尔、鲁佩特和斯特凡斯基（1995年）、沙阿、莱尔德和舍恩菲尔德（1997年）、菲茨杰拉德、戈特恰尔克和莫菲特（1998年）、阿博德、克里彭和克拉玛兹（2001年）、伍尔德里奇（2002年）和伍尔德里奇（2007年）。Robins、Rotnitzky和Zhao（1994年）、Robins、Rotnitzky和Zhao（1995年）以及Bangand Robins（2005年）讨论了当条件结果或损耗模型得到正确描述时，在MAR下一致的结果的双重稳健估计。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

2022-4-24 17:56:56

这种方法满足了双机器学习所需的内曼正交性。然而，他们的框架并没有考虑双重选择的治疗和结果的可观察性的同时，我们在本文中所做的。Negi（2020）提出了一种双重选择下的替代估计器，该估计器属于Sloczy’nski和Wooldridge（2018）中描述的加权M估计框架，并具有双重稳健性，即在条件结果模型或治疗和选择模型的参数误判下保持一致。然而，这种基于重新加权结果模型的方法与我们利用有效的影响函数的方法不同，据我们所知，Neyman（1959）的正交性（如双机学习所需）尚未用于加权M估计（尽管我们证明了我们提出的估计量的这一性质）。另一个问题是，当对预处理协变量进行控制以处理双选择时，NIGI（2020）侧重于处理估值，此外，我们还考虑了基于前处理和后处理协变量（动态混杂）的标识，或者选择样本的工具。与基于MAR的识别不同，所谓的样本选择或不可忽略的无反应模型允许对磨损过程和结果进行未观察到的混淆。除非Heckman（1976）、Heckman（1979）、Hausman and Wise（1979）和Little（1995）等强函数形式假设成立，否则识别需要工具变量（IV）进行样本选择。关于这种情况下的非参数估计方法，我们参考了Das、Newey和Vella（2003）、Newey（2007）、Huber（2012）和Huber（2014b）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:57:03

据我们所知，这项研究是在不可忽略的结果损耗下提出一种双稳健处理的E-ECT估计器，并考虑机器学习技术来进行控制，巴恩韦尔和查德胡里（2020）考虑了单调单调假设下的几个结果周期（即结果损坏是一个随时间微弱递增的吸收状态），并讨论了在这一情况下基于E函数的随机分配的评价。相比之下，我们的框架考虑了一个单一的结果期，并允许选择与观察到的混杂因素相关的治疗。在这种情况下（可能是高维的）协变量。我们的估计器可在Bodory和Huber（2018）的R的因果权重包中找到。本文的工作如下。使用潜在结果框架，第2节讨论了在治疗前协变量的条件下，当结果被假定为缺少一个随机变量时（即选择是基于可观察的，如治疗），平均治疗效果的确定。第3节讨论了当结果损耗与不可观察因素（称为不可忽略的不反应）相关时的识别，以及解决该问题的工具。第4节展示了在观察值的顺序选择下的识别，允许动态混杂，这意味着在治疗前和治疗后协变量的随机条件下，假设结果缺失。第5节提出了一种基于双机器学习的估计器，并在特定的正则条件下证明了根n一致性和渐近正态性。第6节提供了一个模拟研究。第7节介绍了对美国就业团队研究数据的实证应用。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:57:10

第8节结束。2随机缺失下的识别我们的目标参数是二元或多重离散分布治疗变量D对结果变量Y的平均治疗效果（ATE）。为了确定利益的影响，我们使用潜在结果框架，见Rubin（1974）。设Y（d）表示假设治疗分配d下的潜在结果∈ {0,1，…，Q}，其中0表示未治疗，1。。。，Q不同的治疗选择（其中Q表示非零治疗的数量）。当比较两种不同的治疗方法时，ATE d 6=d对应于 = E[Y（d）-Y（d）]。此外，让Y表示在实际分配给受试者的治疗（f）下实现的结果，即Y=Y（D）。因此，Y对应于接受治疗的潜在结果，而任何反事实治疗任务的潜在结果仍然未知。我们的评估框架中的另一个复杂问题是，假设Y只在一个子群体中观察到，即S=1，其中S是一个二元变量，指示Y是否被观察/选择。部分观察结果的实证例子包括工资回归，使用S beingan就业指标，参见Gronau（1974）或教育政策干预对考试成绩影响的评估，S代表参加考试，seeAngrist，Bettinger和Kremer（2006）。在我们的讨论中，S被允许是D和X的函数，即S=S（D，X）。然而，S既不能受到影响，也不能受到影响。因此，选择本身不会对结果产生因果影响。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:57:16

以下非参数coutcome和选择模型满足这个框架：Y=φ（D，X，U），S=ψ（D，X，V），（1）其中U，V是不可观测的特征，φ，ψ是一般函数。在整篇论文中，我们假设稳定的单位治疗价值假设（SUTVA，Rubin（1980））持有这样的Pr（D=D）==> Y=Y（d））=1这排除了相互作用或一般平衡效应，并表明治疗是唯一确定的。随后，当治疗选择和结果损耗均与观察到的特征相关时，我们将允许确定平均治疗效果的假设形式化。假设1（治疗的条件独立性）：Y（d）⊥D | X=X表示所有D∈ {0，1，…，Q}和x支持x。根据假设1，不存在共同影响治疗和结果的不可观测项，条件是协变量x。对于模型（1），这意味着U与影响给定x的不可观测项无关。在观察性研究中，这一假设的合理性关键取决于数据的丰富性，而在实验中，假设2（选择的条件独立性）：Y⊥S | D=D，X=X表示所有D∈ 支持x的{0,1，…，Q}和x。根据假设2，没有不可观察的因素共同影响选择和以D，x为条件的结果，因此鲁宾（1976）命名的结果随机缺失（MAR）。换句话说，选择被认为是选择性的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:57:22

仅观察特征。对于模型（1），这意味着U和V在给定D、X的情况下是条件独立的。假设3（共同支持）：参见例如Imai（2009）中的替代假设，这意味着选择与结果相关，但独立于以结果和其他可观察变量为条件的治疗。注意Y（d）=φ（d，X，U），这意味着对治疗进行筛选会产生潜在的结果。（a） Pr（D=D | X=X）>0和（b）Pr（S=1 | D=D，X=X）>0∈ 假设3（a）是一个常见的支持限制，要求在给定的x下，接受特定治疗的条件概率（以下简称治疗倾向评分）大于零。假设3（b）要求，对于D，X的任何组合，观察到的条件概率（以下称为选择倾向分数）大于零。否则，这些变量的某些特定组合并未观察到结果，这意味着另一个常见的支持问题。图1提供了使用有向无环图的识别设置的图形说明，箭头表示因果影响。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:57:29

D、S和Y中的每一个都可能受到图1中未显示的不同且统计上独立的不可观测数据集的因果影响，但这些不可观测数据都可能在给定X或给定D和X的情况下共同影响D和Y。图1：随机缺失假设下的因果路径我们的识别假设暗示E[Y（D）|X]=E[Y | D=D，X]=E[Y | D=D，S=1，X]，（2）假设1得出第一个等式，假设2得出第二个等式。因此，在（3）或（3）或（3）或（3）或（3）或（3）或（3）或（3）或（3）或（3）或（3）或，利用E[Y[Y[Y | d=d，S=d，S=d，S=d，S=1，S=1，S=1，S=1，X，X，X=E[I（d=d=d=d=d=d=d=d=d=d=d.d.d=d.d.d.d.d.d.d.d）d 0.d.d 00 0 0.d 00 0 0（d=d=d=d=d=d=d=d=d，S=d，S=d，S=d，S=1，S=1，S=1，S=1，S=1，X，X=1，X，X，X，X=1，X，X）X=X d=d，X）#，（4）其中第二个等式来自迭代期望定律。I{·}表示指示函数，如果其参数满足，则等于1，否则等于0。在（4）中除以Pr（D=D | X）·Pr（S=1 | D=D，X）也证明了假设3对于非参数识别的重要性。为了简洁起见，我们用u（D，S，X）=E[Y | D，S，X]表示条件平均结果，用pd（X）=Pr（D=D | X）和π（D，X）=Pr（S=1 | D，X）表示倾向得分。表达式（3）和（4）表明，根据条件平均结果或使用治疗和选择倾向得分的逆概率加权，可以确定平均潜在结果（以及ATE）。根据关于双稳健方法的文献，例如Robins，Mark和Newey（1992），Robins，Rotnitzky和Zhao（1994），以及Robins，Rotnitzky和Zhao（1995），我们结合两种方法得到以下识别结果：e[Y（d）]=Ehψdi，其中ψd=I{d=d}·S·[Y]- u（d，1，X）]pd（X）·π（d，X）+u（d，1，X）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:57:35

（5）（5）中的结果基于所谓的有效分数函数，该函数根据Levy（2019）中概述的方法在附录B中正式推导而来。注意到e“I{D=D}·S·[Y- u（d，1，X）]pd（X）·π（d，X）#=E“E[I{d=d}·S·[Y-u（d，1，X）]|X]pd（X）·π（d，X）#=E[E[Y- u（d，1，X）| d=d，S=1，X]=E[E[Y | d=d，S=1，X]- u（d，1，X）]=E[u（d，1，X）- u（d，1，X）]=0，（6）很容易看出（5）相当于（3），因此（4）。然而，与（3）和（4）相比，如果条件平均结果u（d，1，X）或倾向分数pd（X）和π（d，X）被正确指定，表达式（5）在这个意义上是双重稳健的，即它确定了E[Y（d）]。此外，它满足了所谓的内曼（1959）正交性，即对u（d，S，X），pd（X）和π（d，X）中的扰动是一阶不敏感的，见附录A.1。当使用机器学习以数据驱动的方式估计结果、治疗和选择模型时，这需要期望的鲁棒性。3不可忽略无反应下的识别当样本选择或结果损耗与不可观察相关时，即使是有条件的不可观察，识别通常需要S的工具。因此，我们替换假设2和3，但保留假设1（即选择治疗是基于可观察）。假设4（选择工具）：（a）存在一个工具Z，它可能是D的函数，即Z=Z（D），与S有条件相关，即e[Z·S | D，X]6=0，并且满足（i）Y（D，Z）=Y（D）和（ii）Y⊥Z | D=D，X=X表示所有D∈ {0，1，…，Q}和x在x的支持下，（b）S=I{V≤ χ（D，X，Z）}，其中χ是一般函数，V是不可观测的标量（指数），具有严格单调的累积分布函数，条件是X，（c）V⊥（D，Z）|X.假设4不再强加给定D，X的Y和S的条件独立性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-4-24 17:57:41

由于选择方程中的不可观察V可以与影响结果的不可观察V相关联，假设1和假设2通常不以S=1为条件，因为治疗后变量S的内生性。事实上，S=1意味着χ（D，X，Z）>V以X为条件，V的分布通常在D的各个值上有所不同。如果潜在结果分布在V的各个值上有所不同，这就违反了给定S=1和X的D和Y（D）的条件独立性。因此，我们需要一个由Z表示的工具变量，该变量不得影响Y，也不得与影响Y的不可观察变量相关联，条件是D和X，如4（a）中所述。我们采用了基于该仪器的控制函数方法，这需要进一步的假设。作为选择中的另一组IV限制条件，d\'Haultfouille（2010）允许工具与结果相关联，但假设工具和选择条件独立于结果。控制函数方法已应用于半参数和非参数样本选择模型，例如Ahnand Powell（1993）、Das、Newey和Vella（2003）、Newey（2007）、Huber（2012）和Huber（2014b），以及4（b）中假设的阈值交叉模型，Pr（S=1 | D，X，Z）=Pr≤ χ（D，X，Z））=FV（χ（D，X，Z）），其中FV（v）表示v评估atv的累积分布函数。为了方便起见，我们将使用符号∏=π（D，X，Z）=Pr（S=1 | D，X，Z）。同样通过假设4（b），选择概率∏在χ中严格单调增加，因此分布函数Fv和给定X的特定值v之间存在一对一的对应关系。通过假设4（c），v独立于给定X的（D，Z），这意味着给定X的v的分布函数是（非参数）确定的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:57:47

通过比较具有相同∏的个体，我们控制了Fv，从而控制了V与D和Y（D）的混杂关联，这些关联发生在S=1，X的条件下。换句话说，当外源性变化来自Z时，则∏作为控制函数。因此，基于仪器控制Vb的分布是直接控制V水平（不可行）方法的可行替代方法。图2提供了一个因果模型的非循环图，可以满足假设1和4。U表示影响结果的不可观察事物，可能与V（不可观察的影响选择）任意关联。请注意，虚线表示数据中未观察到V、U。识别依赖于工具Z，工具Z不得与D和X条件下的结果相关联。图2：非参数工具变量模型中不可忽略的无响应下的因果路径，参见Newey、Powell和Vella（1999）、Blundell和Powell（2004）以及Imbens和Newey（2009）。此外，识别需要以下共同支持假设，这与假设3（a）类似，但与后者相反，还包括∏作为条件变量。假设5（公共支持）：对于所有D，Pr（D=D | X=X，π=π）>0∈ 支持x，z的{0，1，…，Q}和x，z。这意味着在完全非参数的情况下，工具z通常必须是连续的，并且足够强，以便在所选总体中重要地转移选择概率∏条件为D，M，x。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:57:54

假设1、4和5足以确定所选人群中的平均潜在结果和ATE，表示为S=1=E[Y（1）- Y（0）| S=1]。要看到这一点，请注意，识别假设意味着[Y（d）|S=1，X，FV]=E[Y（d）|S=1，X，π]=E[Y | d=d，S=1，X，π]（7）在假设4下，第一个等式来自∏=FV，第二个等式来自这样一个事实：当控制FV时，S=1的条件不会导致Y（d）和Dgiven X之间的关联，使得Y（d）⊥通过假设1和4，D | X，π，S=1成立。因此[Y（d）| S=1]=E[E[Y | d=d，S=1，X，π]|S=1]。（8）用pd（X，π）=Pr（D=D | X，π）和u（D，S，X，π）=E[Y | D，S，X，π（D，X，Z）]表示，通过[Y（D）| S=1]=EhφD，S=1 | S=1i，其中φD，S=1=I{D=D}[Y]得到所选患者的平均潜在结果的替代表达式- u（d，1，X，π）]pd（X，π）+u（d，1，X，π），（9），其中除以pd（X，π）使得对假设5的依赖变得明确。通过运用不可知期望定律来取代-带E[Y]的u（d，1，X，π）]-u（d，1，X，π）|d=d，S=1，X，π]注意到后一个表达式为零，可以看出（9）相当于（8）。但与后者不同的是，识别结果（9）满足内曼正交性，并基于有效影响函数，见附录B。虽然与（9）相关的有效影响函数在技术上是双重稳健的，即如果u（d，1，X，π）或pd（X，π）被正确指定，则一致，值得注意的是，该属性通常只能保存ATE在总人口（而非选定人口）中的标识，如果没有进一步的假设，则不可行。原因是，如果D的影响与影响结果的不可观察因素相互作用，即。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-4-24 17:58:00

（1）中的U，因为后者通常在s=1上分布不同，0甚至以（X，π）或（D，X，π）为条件。要了解这一点，请注意，条件为∏=Pr（V≤ χ（D，X，Z）），V差异在所选（满足V≤ χ（D，X，Z））和未选择的（满足V>χ（D，X，Z）），因此，如果V和U相关联，U的分布也不同。这通常意味着E[Y（1）- Y（0）| S=1，X，∏6=E[Y（1）-Y（0）| S=0，X，π]。虽然控制函数∏确保（与X一起）治疗在所选亚群中是未经证实的，但它不允许对未经选择的人群进行外推，且未观察到结果，有关进一步的讨论，请参见Huber和Melly（2015）。因此，假设6在X，V的条件下，对选定和非选定人群的平均治疗效果施加了同质性。影响同质性的一个有效条件是结果方程中观察到的和未观察到的成分的可分性，即Y=η（D，X）+ν（U），其中η，ν是一般函数。此外，假设5中假设的共同支持需要加强，以在整个人群中保持。此外，选择概率∏对于其支持的任何d、x、z都必须大于零。否则，D，X的某些值不会出现结果。假设7将这种常见的支持限制形式化。假设6（条件效应同质性）：e[Y（d）-Y（d）| S=1，X=X，V=V]=E[Y（d）-Y（d）|X=X，V=V]对于所有d6=d∈ {0，1，…，Q}和支持x，v的x，v。假设7（公共支持）：所有d的π（d，x，z）>0∈ {0，1，…，Q}和x，z在x，z的支持下。如果∏是正确指定的，因为它同时输入u（d，1，x，π）和pd（x，π）作为第一步估计量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-4-24 17:58:06

然而，我们的方法不依赖于（全局）双重鲁棒性，而是依赖于内曼正交性，这意味着DML必须在特定的正则条件下对∏的局部扰动负责。在假设1,4,5,6和7下，可以得出u（d，1，X，π）- u（d，1，X，π）=E[Y（d）- Y（d）| S=1，X，V]=E[Y（d）- Y（d）|X，V]，（10）其中第一个等式来自假设1和4，见（7），第二个等式来自假设6。因此，ATE由 = E[u（d，1，X，π）- u（d，1，X，π）]。（11）基于有效影响函数和Spects-Neyman正交性的ATE替代表达式如下所示： = Ehφd- φdi，其中φd=I{d=d}·S·[Y- u（d，1，X，π）]pd（X，π）·π（d，X，Z）+u（d，1，X，π），（12），其中除以pd（X，π）·π（d，X，Z）取决于在许多应用中，在顺序条件独立下满足假设5和7.4的识别，通过仅对治疗分配前测量的基线协变量进行调节来控制所有影响样本选择指标的变量似乎不现实，尤其是在手头没有仪器的情况下。当治疗分配和样本选择/消耗之间存在很大的时间差时，这种情况尤其明显，这引起了对动态混杂的担忧。后者意味着影响结果和样本选择的一些混杂因素本身就是治疗的函数。随后，我们重新考虑MAR框架，但不修改识别假设，以便允许观察到治疗后Y和S的混杂因素。随后，我们将通过M引用观察到的治疗后变量，以便将其与治疗前协变量X区分开来。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:58:12

识别基于顺序条件独立性，其基于维持假设1（给定X的D的条件独立性），但将假设2替换为选择指标S的修改条件独立性假设，允许因M=M（D）而产生动态混杂，即治疗可能影响的协变量。假设8（选择的条件独立性）：Y⊥S | D=D，X=X，M=M表示所有D∈ 支持x和m的{0，1，…，Q}和x，m。根据假设8，不存在共同影响选择和结果的不可观察因素，其条件是D、X、M，因此样本选择仅为选择性的w.r.t.观察特征。当将（1）中的非参数结果和选择模型修改为Y=φ（D，X，M，U）和S=ψ（D，X，M，V）时，如果不可观测的U和V是独立的，则满足假设8。假设9（共同支持）：（a）Pr（D=D | X=X）>0和（b）Pr（S=1 | D=D，X=X，M=M）>0∈ 假设9中的（b）部分比假设3中的（b）部分施加了更强的公共支持限制，因为它要求D，x，m（而不是仅D，x）的任何组合的选择倾向得分大于零。图3提供了一个非循环图，其中假设1和8成立。治疗后协变量M可能受到D、X的影响，并可能共同影响S和Y。然而，在条件onD，X，M中，不存在共同影响S和Y的不可观测项。图3：顺序条件独立下的因果路径我们的识别假设意味着E[Y（d）]=E[E[Y（d）|X]=E[E[Y | d=d，X]=E[E[E[Y | d=d，X，M]| d=d，X]=E[E[Y | d=d，S=1，X，M]| d=d，X]]。（13）其中第一个和第三个等式来自迭代期望定律，第二个等式来自假设1，第四个等式来自假设8。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:58:18

除了这种基于回归的嵌套条件平均结果的结果外，还可以获得基于IPW的表达式，其中我们使用π（D，X，M）=Pr（S=1 | D，X，M）作为选择倾向评分的快捷符号。E[E[Y | D=D，S=1，X，M | D=D，X]=E“E”E“S·Yπ（D，X，M）D=D，X，M#D=D，X##=E“E”S·Yπ（D，X，M）D=D，X##=E“E”I{D=D}·S·Ypd0（X）·π（D，X，M）其中，第一个和第三个等式来自基本概率理论，第二个和最后一个等式来自迭代期望定律。将回归和IPW结合起来，基于有效影响函数产生以下双重稳健识别结果，其中u（D，1，X，M）=E[Y | D=D，S=1，X，M]和ν（D，1，X，M）=[Y | D=D，S=1，X，M]| D=D，X]分别表示条件平均结果和嵌套条件平均结果：E[Y（D）]=Ehθdi，其中θD=I{D=D}·S·[Y]- u（d，1，X，M）]pd（X）·π（d，X，M）+I{d=d}·[u（d，1，X，M）- 其中除以pd（X）·π（d，X，M）依赖于假设9。效率影响函数的推导见附录B.5利用K-折叠交叉拟合估计反事实我们随后根据识别结果（5）提出了MAR下反事实e[Y（d）]的估计策略，并在特定规则性条件下显示其根n一致性，如第2节所述。为此，让我们来看一下W={Wi | 1≤ 我≤ n} Wi=（Yi·Si，Di，Si，Xi）表示i.i.d.样本大小为n的一组观察值。η表示插件（或干扰）参数，即条件平均结果、中介密度和治疗概率。它们各自的估计值由η={u（D，1，X），^pd（X），^π（D，X）}表示，真实参数由η={u（D，1，X），pd0（X），π（D，X）}表示。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:58:24

最后，ψd0=E[Y（d）]表示真实的反事实。我们通过以下算法来估计ψd0，该算法将内蒙正交分数的估计与样本分割或交叉拟合相结合，并且在下文进一步定义的条件下是根n一致的。算法1：根据方程（5）1估计E[Y（d）]。在K个子样本中拆分W。对于每个子样本k，让NK表示其大小，WK表示样本中的观测集，WCK表示k.2中未包含的所有观测的补集。对于每个k，使用WCkto估计插件u（D，S=1，X）、pd（X）、π（D，X）的模型参数，以便在Wk中预测这些插件，其中预测由^uk（D，1，X）、^pkd（X）和^πk（D，X）表示。对于每个k，获得Wk中每个观察值的得分函数估计值（见ψdin（5）），表示为^ψkd，i:^ψkd，i=i{Di=d}·Si·[Yi- ^uk（d，1，Xi）]pkd（Xi）·^πk（d，Xi）+^uk（d，1，Xi）。(16)4. 对所有K个子样本的所有观测值进行平均，以获得总样本中ψd0=E[Y（d）]的估计值，表示为^ψd=1/nPKk=1Pnki=1^ψkd，i。为了获得反事实估计的根n一致性，我们对机器学习估计干扰参数的预测质量做出以下假设。继切尔诺朱科夫、切特维里科夫、德米雷尔、杜弗罗、汉森、纽伊和罗宾斯（2018）之后，我们引入了一些进一步的符号：let（δn）∞n=1和(n）∞n=1具有limN的正常数的烯醇序列→∞δn=0和limN→∞n=0。此外，让c，, C和q是正常数，使得q>2，并且让K≥ 2是一个固定整数。同样，对于任意随机向量R=（R，…，Rl），让kRkq=max1≤J≤lkRlkq，其中kRlkq=（E[|Rl | q]）q。为了便于表示，我们假设n/K是一个整数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:58:30

为了简洁起见，我们省略了概率PrP、期望EP（·）和范数k·kP，qon对概率度量P的依赖关系。假设10（规律性条件和插件参数估计的质量）：对于所有概率定律P∈ P、其中P是所有可能的概率定律的集合，以下条件适用于D的随机向量（Y，D，S，X）∈ {0，1，…，Q}：（a）kY kq≤ CE[Y | D=D，S=1，X]∞≤ C、（b）公共关系( ≤ pd0（X）≤ 1.- ) = 1、公关( ≤ π（d，X））=1，（c）kY- u（d，1，X）k=Eh（Y）- u（d，1，X））i≥ c（d）给定[n]的一个大小为nk=n/K的随机子集I，干扰参数估值器^η=^η（（Wi）I）∈IC）满足以下条件。P-概率不小于1- n:k^η- ηkq≤ C、 k^η- ηk≤ δn，k^pd0（X）- 1/2k∞≤ 1/2 - ,k^π（D，X）- 1/2k∞≤ 1/2 - ,k^u（D，S，X）- u（D，S，X）k×k^pd0（X）- p（X）k≤ δnn-1/2，k^u（D，S，X）- u（D，S，X）k×k^π（D，X）- π（D，X）k≤ δnn-1/2.唯一的非原始条件是条件（d），它限制了干扰参数估计的质量。条件（a）规定出演者的分布没有无界时刻。（b）定义公共支持条件，使治疗和选择倾向得分分别远离0和1及0。（c）说明协变量X不能完全预测条件平均结果。为了证明我们估计的平均潜在结果的根n一致性，我们首先验证了分数的线性和内马尔正交性（见附录A.1），证明它满足切尔诺朱科夫、切特韦里科夫、德米雷尔、杜弗罗、汉森、纽伊和罗宾斯（2018）中DML框架的要求。由于ψd（W，η，ψd0）在（η，ψd0）中是光滑的，因此插件估计量收敛于速率n-1/4实现n-1/2-收敛在^ψ的估计中，见定理1。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-4-24 17:58:37

n的比率-1/4是许多常用的机器学习者在特定条件下可以实现的，例如套索、随机森林、助推和神经网络，参见贝洛尼、切尔诺朱科夫和汉森（2014年）、罗和斯平德勒（2016年）、瓦格和阿西（2018年）以及法雷尔、梁和米斯拉（2018年）。定理1在假设1-3和10下，它适用于基于算法1估计ψd0=E[Y（d）]：√N^ψd- ψd0→ N（0，σψd），其中σψd=E[（ψd- ψd0）]。证据见附录A.1。随后我们讨论了基于（12）的ψd0的估计。我们注意到，在这种情况下，需要估计嵌套的干扰参数u（d，1，X，π）和pd（X，π），因为它们需要∏=π（d，X，Z）的第一步估计。为了避免嵌套估计过程中的过度拟合，在不同的子样本中估计∏和u（d，1，X，π）、pd（X，π）的模型。插件估计值现在用η={^u（D，1，X，π）、^pd（X，π）、^π（D，X，Z）}表示，真正的插件用η={u（D，1，X，π）、pd0（X，π）、π（D，X，Z）}表示。算法2：根据方程（12）1估计E[Y（d）]。在K个子样本中拆分W。对于每个子样本k，让NK表示其大小，WK表示样本中的观测集，WCK表示k.2中未包含的所有观测的补集。将WCKIN拆分为2个不重叠的子样本，并在一个子样本中估计π（D，X，Z）的模型参数，以及在另一个子样本中估计u（D，1，X，π）和pd0（X，π）的模型参数。在Wk中预测插件模型，其中预测由^∏k、^pkd（X，^∏k）和^u（D，1，X，^∏）表示。对于每个k，获得Wk中每个观测i的有效得分函数的估计值（参见φdin（12）），表示为^φkd，i:^φkd，i=i{Di=d}·Si·[Yi- k k（d，1，Xi，i i）] Pd（席，αi）·π（d，席，Zi）+α（d，1，席，αi）席（17）4。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-4-24 17:58:44

对所有K个子样本的所有观测值进行平均，以获得总样本中ψd0=E[Y（d）]的估计值，用Φd=1/nPKk=1pki=1^φkd表示，即通过算法2中的两个修正获得基于（9）的ψS=1d0=E[Y（d）|S=1]的估计值。首先，不依赖总样本n，只使用sizePni=1的观察结果的子样本，将其分成K个子样本。第二，在步骤3中，用φkd，S=1，i=i{Di=d}·[Yi]替换φkd，iis- αk（d，1，Xi，i i）] Pd（席，αi）+（d，1，席，i）（18），用席夫s= 1d＝pNi＝1SIPKK＝1pNKi＝1πkd，s＝1，i，aspNi＝1sii，渐近n的比例，也可将此方法显示为假设11中所述的特定正则条件下的根- N一致性，这与假设10中的相似，但现在我们调整了我们的假设。假设11（规律性条件和插件参数估计的质量）：对于所有概率定律P∈ P、其中P是所有可能的概率定律的集合，以下条件适用于D的随机向量（Y，D，S，X，Z）∈ {0，1，…，Q}：（a）kY kq≤ CE[Y | D=D，S=1，X，π]∞≤ C、（b）公共关系( ≤ pd0（X，π）≤ 1.- ) = 1、公关( ≤ π（d，X，Z））=1，（c）kY- u（d，1，X，π）k=Eh（Y）- u（d，1，X，π））i≥ c（d）给定[n]的一个大小为nk=n/K的随机子集I，干扰参数估值器^η=^η（（Wi）I）∈IC）满足以下条件。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-4-24 17:58:50

P-概率不小于1- n:k^η- ηkq≤ C、 k^η- ηk≤ δn，^pd0（X，^∏）- 1/2∞≤ 1/2 - ,k^π（D，X，Z）- 1/2k∞≤ 1/2 - ,^u（D，S，X，^∏）- u（D，S，X，π）×^pd0（X，^∏）- p（X，π）≤ δnn-1/2,^u（D，S，X，^∏）- u（D，S，X，π）×k^π（D，X，Z）- π（D，X，Z）k≤ δnn-1/2.定理2和3分别假设所选总体和总总体的平均潜在结果的估计的根n相合性和渐近正态性。定理2在假设1、4、6、7和11下，它适用于基于算法2估计ψd0=E[Y（d）]：√N^Φd- ψd0→ N（0，σφd），其中σφd=E[（φd- ψd0）]。定理3在假设1、4、5和11下，它适用于基于算法2估计ψS=1d0=E[Y（d）|S=1]：√N^ΦS=1d- ψS=1d0→ N（0，σφd，S=1），其中σφd，S=1=E[（φd，S=1- ψS=1d0）]。证据见附录A.2和A.3。其次，我们考虑了基于（15）的d0的估计。与基于（12）的估计类似，我们需要估计一个嵌套的干扰参数，即ν（d，1，X）=E[u（d，1，X，M）|d=d，X]。为了避免嵌套估计过程中的过度拟合，在不同的子样本中估计u（d，1，X，M）和ν（d，1，X）的模型。算法3：根据方程（15）1估计E[Y（d）]。在K个子样本中拆分W。对于每个子样本k，让NK表示其大小，WK表示样本中的观测集，WCK表示k.2中未包含的所有观测的补集。对于每个k，使用WCkto估计pd（X）和π（d，X，M）的模型参数。将WCKIN拆分为2个不重叠的子样本，并估计不同子样本中条件平均值u（d，1，X，M）和嵌套条件平均值ν（d，1，X）的模型参数。预测Wk中的模型，其中预测用^pkd（X）、^πk（d，X，M）、^uk（d，1，X，M）、^νk（d，1，X）表示。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:58:56

对于每个k，获得Wk中每个观测i的矩条件估计值，表示为^θkd，i:^θkd，i=i{Di=d}·Si·[Yi- k k（d，1，席，米河）] pkd（席）·πk（d，席，米河）+i {di= d}·[ k k（d，1，席，米河）- ^νk（d，1，Xi）]pkd（Xi）+^νk（d，1，Xi）。对所有K个子样本的所有观测值进行平均，以获得总样本中ψd0=E[Y（d）]的估计值，用^d=1/nPKk=1pki=1^θkd表示，i.为了显示这种估计方法的根n一致性，我们施加以下正则条件，其中我们再次假设n/K是一个整数，并忽略概率PrP、期望EP（·）的依赖性，范数k·kP，qon概率测度P：假设12（规律性条件和插件参数估计的质量）：对于所有概率定律P∈ P以下条件适用于所有D的随机向量（Y，D，S，X，M）∈ {0，1，…，Q}：（a）kY kq≤ CE[Y | D=D，S=1，X，M]∞≤ C、（b）公共关系( ≤ pd0（X）≤ 1.- ) = 1、公关( ≤ π（d，X，M）≤ 1.- ) = 1、（c）kY- u（d，1，X，M）k=Eh（Y）- u（d，1，X，M））i≥ c（d）给定[n]的一个大小为nk=n/K的随机子集I，干扰参数估值器^η=^η（（Wi）I）∈IC）满足以下条件。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:59:02

P-概率不小于1- n:k^η- ηkq≤ C、 k^η- ηk≤ δn，k^pd0（X）- 1/2k∞≤ 1/2 - ,k^π（D，X，M）- 1/2k∞≤ 1/2 - ,k^u（D，S，X，M）k×k^pd0（X）- pd0（X）k≤ δnn-1/2，k^u（D，S，X，M）- u（D，S，X，M）k×k^π（D，X，M）- π（D，X，M）k≤ δnn-1/2，k^ν（D，S，X）- ν（D，S，X）k×k^pd0（X）- pd0（X）k≤ δnn-1/2.在这些正则性条件和连续条件独立假设下，基于算法3的估计是渐近正态的，如定理4所假设的。定理4在假设1、8、9和12下，它适用于基于算法3估计E[Y（d）]：√N^Θd- ψd0→ N（0，σθd），其中σθd=E[（θd- ψd0）]。定理4的证明在附录A.4.6模拟研究中提供。本节提供了一项模拟研究，以调查我们的估算方法的有限样本行为，或者依赖于基于以下数据生成过程选择的工具的MAR假设：Y=D+Xβ+U，如果S=1，S=I{D+γZ+Xβ+V>0}，D=I{Xβ+W>0}，X，则观察到Y~ N（0，σX），Z~ N（0，1），（U，V）~ N（0，σU，V），W~ N（0，1）。结果Y是D（其治疗效果为1）、协变量X（β6=0）和不可观察U的线性函数，只有当选择指标S等于1时，才能观察到结果Y。选择是D，X，不可观测V的函数，如果γ6=0，则是仪器Z的函数。治疗是X和不可观察W的作用。Z和W都是随机的标准正态分布变量，与X或（U，V）不相关。X中的平均零和正态分布协变量之间的相关性由协方差矩阵σX确定。类似地，σU，v确定结果和选择方程中的平均零和正态分布不可观测值之间的相关性。在此设置中，如果U和V之间的距离不为零，则违反MAR。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:59:09

我们考虑我们的估计在1000模拟中的性能，N＝2000和8000的两个样本大小。在我们的模拟中，我们将协变数p设置为100。σXis的定义基于将X中第i个和第j个协变量的方差设置为0.5 | i-j |。β分别衡量协变量对Y、S和D的影响，从而衡量混淆的程度。系数向量β中的第i个元素设置为0.4/ifor i=1。。。，p、这意味着在混淆方面协变重要性的平方衰减。在我们的第一个模拟设计中，我们设置γ=0和σU，V=1 00 1如第2节所述，MAR有效。我们考虑基于定理1（此后的DML MAR）的DML的性能，它不使用仪器Z，以及基于定理2（DML IV），它利用了仪器，尽管satisfactionof MAR.损坏了参数，即结果和选择方程和处理方程的线性和概率的阳离子，使用van der Laan、Polley和Hubbard（2007）为统计软件R提供的Super Learner软件包的默认选项，通过套索回归进行估计。我们使用3倍交叉拟合来估计治疗效果。我们观察到，其治疗和选择倾向评分的乘积接近于零，即小于0.01（或1%）的微调阈值。这避免了在通过（5）和（12）的样本类似物估计平均潜在结果或ATE时，基于属性分数的权重爆炸，从而避免方差爆炸，其中，属性分数的乘积输入相应的分母，用于重新加权结果。我们的估算程序可在Bodory和Huber（2018）的R因果权重包的treatselDML命令中找到。表1给出了模拟结果。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-4-24 17:59:15

DML-MAR和DMLIV的偏差（偏差）与样本量无关，非常接近于零。此外，估计量的方差几乎相同，尽管DML IV不必要地依赖于控制表1:MARtrue bias sd RMSE meanSE Coverage Gen=2000DML MAR 1.000 0.003 0.060.063 0.939DML IV 1.000 0.003 0.060 0.060 0.063 0.939n=8000DML MAR 1.000 0.012 0.031 0.033 0.034 0.934DML IV 1.000 0.031 0.031 0.033 0.939注释：“真”列显示了真实的影响，“偏差”是各估计器的偏差，“sd”是标准偏差，“RMSE”是均方根误差。“meanSE”列显示了基于所有模拟的渐近近似的平均标准误差，“coverage”列显示了基于95%置信区间的真实效应协同率。函数方法和一个无关的工具。这两种估计器似乎都收敛到了√n-比率，因为在扩大样本量时，均方根误差（RMSE）大致减少一半。基于渐近方差近似的模拟平均标准误差（meanSE）接近各自估计器的标准偏差（sd）。最后，覆盖率（覆盖率），即95%置信区间包含真实影响的模拟份额，仅略低于95%的名义水平。表2：不可忽略选择下的模拟结果真实偏差sd RMSE meanSE Coverage Gen=2000DML MAR 1.000-0.1200.0550.1320.052 0.374DML IV 1.000-0.0200.071 0.074 0.065 0.907n=8000DML MAR 1.000-0.116 0.028 0.119 0.027 0.009DML IV 1.000 0.006 0.040.040.040.036 0.915注：“真实”列显示了各个估计值的真实影响，“sd”是标准偏差，“RMSE”是均方根误差。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝