全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-4-26 14:47:19
(2016)提出的调整方法,并使用相同的自行车共享数据集对performanceagainst ForestIV进行基准测试。G.1使用SIMEX进行基准测试:连续案例基准测试模拟实验设置如下。我们使用波士顿住房数据集(H arrison Jr和Rubinfeld,1978)建立了一个数值预测模型。波士顿住房数据集包含14个描述波士顿地区506个人口普查区住房的属性。这些数据经常被用作数值预测算法的基准数据集(例如,Rose,1998;Lim等人,2000)。我们建立了一个包含100棵树的随机森林,根据13个不同的特征,例如平均房间数、财产税,预测人口普查区(MEDV)房屋的中期价值。我们随机抽取200个样本作为数据集,再随机抽取50个样本作为数据集。然后,使用随机森林模型预测剩余256个地块的中值。我们将来自随机森林的聚合预测表示为\\MEDV,并将来自每棵树的预测表示为i∈ {1,…,100}as\\MEDVi。对于要估计的经济计量模型,我们模拟了一个人工数据集(N=506),其中MEDV是一个独立的协变量。我们在模型中加入了另外两个控制变量Zand Z。特别是Z~伯努利(0.6)是一个伪变量,其值为1,概率为60%,Z~ N(0,1)是一个正态分布的连续变量。我们还模拟了一个误差项ε~ N(0,0.1)。因变量是所有变量的线性组合,Y=1+0.5MEDV+2Z+Z+ε。与之前一样,模拟重复了100轮,我们报告了平均系数和标准误差。为简洁起见,我们参考了Yang等人的结果。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:47:25
(2018)获取有关应用SIMEXapproach获得校正系数的技术细节,该系数解释了\\MEDV中的测量误差。结果汇总在表G.1中。此外,在图G.1中,我们绘制了与MEDV Acrosall模拟运行相关的系数分布。如表G.1所示,直接使用回归模型中随机森林预测的MEDV会导致不显著的偏差。MEDV的效率平均被高估了15.8%。此外,在整个模拟过程中,真实偏差SIMEX ForestIVIntercept 1.0-0.745(0.402)1.154(0.382)0.999(0.245)[0.027][0.689][0.997]MEDV 0.50.579(0.016)0.494(0.060)0.500(0.010)[0.024][0.707][0.999]Z2。01.961(0.236)1.958(0.260)1.986(0.171)[0.458][0.871][0.935]Z1。0.989(0.115)0.991(0.126)1.001(0.086)[0.461][0.943][0.991]平均MSE 3.284 0.259 0.097表11:使用SIMEX和ForestIV的估计结果。括号中的标准错误。p值将ImageMates与方括号中的真值进行比较。AveMSE包含100次模拟运行中与每组估计相关的平均经验MSE。运行时,MEDV的效率可能会向上和向下偏移(见图1)。与其他协变量Zand Z相关的系数也偏向不同程度和不同方向,尽管平均偏差不大。其次,我们的ForestIV方法有效地缓解了估计偏差。它几乎完全恢复了所有回归方程的无偏系数。第三,与SIMEX相比,ForestIV生成的点估计更接近真实值。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:47:31
此外,如图G.1所示,与SIMEX相比,ForestIV测得的M EDV系数分布的标准偏差更小,表明稳定性也更高。0.3 0.4 0.5 0.6 0.70 5 10 15 MedvdensityBiasedSimexForestiv上的系数图9:M EDV acro-ss模拟运行中的偏差系数和校正系数分布。2使用SIMEX进行基准测试:二元病例我们使用威斯康星州乳腺癌数据集(Wolberg and Mangasarian,1990)。该数据集包含683例乳腺癌诊断的临床病例。我们建立了一个由100棵树组成的随机森林,根据9个生物学特征预测癌症结果(良性或恶性)。与之前的模拟设置类似,我们随机抽取200例作为Dtrain,50例作为Dtest,其余433例作为Dunlabel。接下来,我们模拟一个经济计量模型:Y=1+0.5癌症+2Z+Z+ε(N=683),其中Z~ 制服[-1,1],Z~ N(0,1)和ε~ N(0,0.1)。与之前一样,模拟重复了100轮,我们报告了所有轮的平均系数和标准误差。关于应用MC-SIMEX方法的技术细节,我们再次参考Yang等人(2018)。结果总结在表G中。2.在图G.2中,我们绘制了所有模拟运行中与癌症相关的系数分布。真偏差MC-SIMEX ForestIVIntercept 1.01.013(0.008)1.005(0.008)1.004(0.008)[0.234][0.405][0.505]癌症0.50.463(0.014)0.519(0.059)0.496(0.012)[0.044][0.264][0.739]Z2。0.001(0.011)2.001(0.012)2.000(0.009)[0.492][0.934][0.999]Z1。0.999(0.006)0.999(0.007)0.999(0.006)[0.506][0.868][0.886]平均均方误差0.0028 0.0051 0.0009表12:使用MC-SIMEX和ForestIV的估计结果。括号中的标准错误。p值将估计值与方括号中的真值进行比较。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:47:37
Ave MSE包含与100次模拟运行中的每组估计值相关的Ave MSE。基于TableG。2.直接使用随机森林预测\\回归中的癌症导致对其系数的估计约为7.4%。ForestIV和MC-SIMEX都能够减轻估计偏差,ForestIV通过产生更接近基本真实值的平均点估计值而优于MC-SIMEX。另外,图。2显示,与MC-SIMEX相比,ForestIV对癌症的估计标准偏差小得多,表明稳定性更高。0.4 0.5 0.6 0.70 5 10 15癌症密度系数-SimexForestiv图10:模拟RunsG中癌症偏差系数和校正系数的分布。3 SIMEX的局限性和Forestiv的稳健性作为这项基准测试工作的一部分,我们还发现了一种以前未记录但常见的情况,在这种情况下SIMEX会产生系统性的不良结果。特别是,当测量误差与计量经济学模型中另一个精确测量的协变量相关时,SIMEX算法实际上会在与精确测量的协变量相关的系数中引入偏差。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:47:43
重要的是,ForestIV方法不能解决这个问题,因此在这种情况下可能比SIMEX更可取。虽然SIMEX是处理测量误差的一种普遍可靠的方法,并已被证明在各种类型的计量经济模型中表现良好(Yang等人,2018年),但我们已经确定了一个重要的限制,导致SIMEX在某些条件下产生有问题的校正结果。再次考虑回归模型Y~bXβX+ZβZ,其中bX是用加性误差测量的,即bX=X+e。假设测量误差分量e与模型中精确测量的控制变量之一相关,例如。,Z*∈ Z、 Cov(e,Z)*) 6= 0. S IMEX修正了Z上的系数*在这种设置下,可能会比没有校正的情况下更加偏向。这代表了结合机器学习和计量经济学建模时可能出现的现实情况。例如,考虑一个信用评分预测模型。与年轻人相比,老年人的信用评分可能更容易预测(误差较小),因为在前一种情况下,可以获得更多关于历史消费和还款的数据。因此,信用评分预测中的误差可能与年龄有关,在许多经济计量模型中,年龄似乎是一个控制变量。另一个引起热烈讨论的例子是COMPAS risk t Tool的Propublica’S scritique(Angwin et al.,2016),这是美国刑事司法系统用于评估被告再犯风险的预测模型。COMPAS产生的预测误差与种族有关;与白人被告相比,该算法对于非裔美国人被告(即偏向于非裔美国人)而言更不准确。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:47:50
性别分类(Buolamwini和Gebru,2018)中也记录了预测性能方面的类似种族差异,研究人员发现,对于肤色较深的人,图像分类的准确性较低。在下面的理论中,我们在具有可加性独立(即经典)测量误差的线性回归的简单情况下验证了SIMEX的这一局限性。形式上,考虑一个总体回归方程:Y=β+βX+βX+ε,其中Xis用加性独立误差测量,即cX=X+e,Cov(X,e)=0。假设Xis与测量误差相关,即Cov(X,e)=σ2e6=0。我们仍然假设模型误差项ε是外生的,即Cov(X,ε)=Cov(X,ε)=Cov(e,ε)=0。为了简单起见,我们还假设Cov(X,X)=0。进一步表示V ar(X)=σ,V ar(X)=σ,V ar(e)=σe。最后,分别表示Xasβ、cβ和cβsimexe上的真实系数、有偏(即未修正)系数和SIMEX修正系数。定理|cβSIMEX- β|>cβ- β|,即SIMEX校正系数将比无校正情况下更具偏差,如果且仅当σσ- σ2e<σ(σ+σe)- σ2e.放松这一假设,在不改变潜在机制的情况下,推导过程会更加复杂。当ncov(X,X)6=0时,我们的陈述在稍微严格的条件下仍然成立。考虑{cX,X}上Y的有偏回归的OLS估计。使用回归解剖方法(Angrist和Pischke,2008),与Xiscβ=Cov(Y,gX)V ar(gX)相关的估计系数,其中fX是回归XoncX的残差,即X=r+rcX+fX。我们知道r=Cov(X,dX)var(dX),因此X=X-R-Cov(X,dX)V ar(dX)cX。因此Cβ=Cov(Y,gX)V ar(gX)=Covβ+βX+βX+ε,X-R-Cov(X,dX)V ar(dX)dX瓦尔十、-R-Cov(X,dX)V ar(dX)dX.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:47:58
去掉常数β和外源ε,上述表达式简化了tocβ=CovβX+βX,X-Cov(X,dX)V ar(dX)dX瓦尔十、-Cov(X,dX)V ar(dX)dX=-βCov(X,dX)var(dX)Cov(X,dX)+βσ-βCov(X,dX)var(dX)σ-Cov(X,dX)V ar(dX)=β- βCov(X,dX)Cov(X,dX)σV ar(dX)-Cov(X,dX)。假设var(cX)=σ+σe,Cov(X,cX)=σ,Cov(X,cX)=σ2e,我们有cβ=β- βσ2eσ(σ+σe)-σ2e。这意味着与X,| cβ相关的系数的绝对偏差- β| =βσ2eσ(σ+σe)-σ2e.现在考虑SIMEX校正程序(Cook和Stefanski,1994)。在模拟步骤中,SIMEX createscX(λ)=cX+√λz=X+e+√λz,其中z~ N(0,σe),从而引入更多的测量误差。注意,V ar(cX(λ))=σ+(1+λ)σe,d Cov(X,cX(λ))=σ2ez,因为z是独立生成的。根据上面相同的推导,我们知道在{cX(λ),X}上回归Y,我们会得到cβ(λ)=β-βσ2eσ(σ+(1+λ)σe)-σ2e,或相当于| cβ(λ)- β| =βσ2eσ(σ+(1+λ)σe)-σ2e. 在外推步骤中,SIMEX估计了Cβ(-1) ,即,如果没有测量误差,将获得的效率(注t hatcβ)(-1)≡cβSIMEX)。相应地,| cβ(-1)- β| =βσ2eσσ-σ2e.最后,我们比较了| cβ(-1)- β| =βσ2eσσ-σ2e和| cβ- β| =βσ2eσ(σ+σe)-σ2e, 或等效地,比较|σ-σ2e |和|σ(σ+σe)-σ2e |。因此,条件σσ- σ2e<σ(σ+σe)- σ2e意味着|σ-σ2e |>σ(σ+σe)-σ2e|=> |cβ(-1)- β|>cβ- β|,即SIMEX在Xbecomes上的校正系数,甚至比在没有校正的情况下更偏向。评论我们注意到σσ- σ2e<σ(σ+σe)- σ2e很容易满足。不平等的右侧相当于σσ- σ2e+σe. 因此,不等式成立的充分(但不是必要)条件是σσ- σ2e≥ 0
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:48:05
因为∑- σ2e≥ 0<=>σσe≥σ2eσe=ρ2e,我们可以看到,如果σ≥ σe,这意味着测量误差的方差不大于真协变量的方差。这通常是正确的,除非测量误差非常大。基本上,SIMEX方法依赖于测量误差程度与偏差程度正相关的隐式假设。当精确测量的协变量与测量误差相关时,这一假设被违反,正如我们在上述定理中所示。因此,除非对SIMEX程序进行特殊修改,否则会对精确测量的协变量产生不正确的结果。然而,我们的Forestiv方法并不支持这个问题,因为它不依赖于相同的隐含假设。相反,已识别的工具应减轻易出错协变量的估计偏差,而不会对精确测量的协变量的估计引入额外偏差。我们通过另一组模拟,使用波士顿住房数据集,实证证明了SIMEX的局限性和ForestIV的稳健性。基本设置与之前相同,但有一个变化:一个控制变量Z~ N(0,1)的生成使其与\\MEDV(随机森林模型的聚合预测)中的预测误差相关,相关系数为0.3。我们重复同一组回归分析,并在表G中报告结果。3.真偏差SIMEX ForestIVIntercept 1.0-0.962(0.399)0.688(0.385)0.840(0.384)[0.002][0.418][0.677]MEDV 0.50.588(0.016)0.513(0.060)0.506(0.015)[0.004][0.416][0.689]Z2。0.017(0.232)2.011(0.258)2.017(0.219)[0.458][0.966][0.938]Z1。0.483(0.114)0.401(0.155)0.837(0.126)[0.000][0.000][0.196]平均均方误差4.351 0.699 0.264表13:使用SIMEX和ForestIV的E估计结果,ρZ,E=0.3。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:48:11
括号中的标准错误。p-将估计值与方括号内的真值进行比较的值。AveMSE包含100次模拟运行中与每组估计值相关的平均经验LMSE。基于TableG。3.我们可以看到,当测量误差与精确测量的控制变量Z相关时,Zis的系数被严重低估了51.7%,并且与我们的理论结果一致,SIMEX校正系数变得更加偏颇。然而,我们提出的ForestIV方法不仅能够减轻MEDV的偏见,而且还可以显著纠正Zin的系数。这表明,当测量误差与模型中的某些控制变量相关时,ForestIV比SIMEX更稳健。G.4基准测试使用LatentIVNext,我们在自行车共享数据集上使用LatentIV方法对我们提出的ForestIV进行基准测试。我们在R软件包“人多”中采用了LatentIV。请注意,LatentIV的这种实现不支持模型中其他外部控制变量的估计。因此,我们从模拟中去掉控制变量,将因变量简单地模拟为Y=1+0.5lnCnt+ε,其中ε~ N(0,4)。我们根据这一数据预测了ForestIV和LatentIV。LatentIV在100次模拟运行中的平均估计值,以及有偏、无偏和ForestIV估计值,见表G。4.真正有偏的无偏前stIV-LatentIVIntercept 1.0.711(0.062)0.972(0.203)0.938(0.148)0.776(0.733)[0.001][0.568][0.677][0.760]lnCnt 0.50.564(0.013)0.507(0.040)0.515(0.029)0.549(0.166)[0.002][0.538][0.613][0.770]平均均方误差0.112 0.010:0.611.610.614][0.6V共享基准数据。括号中的标准错误。p-将估计值与方括号内的真值进行比较的值。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:48:18
Ave MSE包含100次模拟运行中与每组估计值相关的平均经验误差。我们发现LatentIV能够在一定程度上缓解lnCnt和截距项t的估计偏差。尽管如此,该方法在系统上似乎不如ForestIV有效。此外,最新估计的标准误差远大于ForestIV得出的标准误差,表明结果的潜在不稳定性。G.5使用生成的回归器调整进行基准测试最后,我们根据Meng等人(2016)开发的回归调整方法对ForestIV进行基准测试,以确定非参数生成回归器中的测量误差。我们应用(Meng等人,2016年,第305页)中的公式来获得lnCnt的调整系数和标准误差。表G中报告了100次模拟运行中回归调整的平均估计值,以及有偏、无偏和ForestIV估计值。5.真有偏无偏森林一般回归调整截距1.0 0.702(0.063)1.018(0.204)0.957(0.134)0.702(0.063)[0.004][0.511][0.745][0.004]lnCnt 0.50.566(0.013)0.498(0.040)0.512(0.027)0.563(0.147 0.002][0.530 0.652][0.664]2。0.2.000(0.003)1.999(0.011)2.000(0.003)2.000(0.003)[0.459][0.524][0.977][0.459]Z1。0.1.000(0.002)0.999(0.006)1.000(0.002)1.000(0.002)[0.480][0.486][0.989][0.480]平均均方误差0.150 0.017 0.164表15:基于自行车共享数据生成回归调整的基准ForestIV。括号中的标准错误。p值将估算值与方括号中的tr ue值进行比较。Ave MSE代表100次模拟运行中与每组估计值相关的平均经验MSE。我们发现,生成的回归调整方法仅略微降低了lnCnt的偏差,而且效果明显低于ForestIV。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:48:24
我们认为,在这种情况下,回归调整方法的局限性可能归因于这样一个事实,即它只利用测量误差均值和方差的分布信息,基本上忽略了其他分布信息。最后,我们承认,在某些情况下,在生成回归器文献(或一般的计量经济学文献)中看到最近理论发展的替代方法可能比ForestIV获得更好的偏差校正结果。因此,我们相信这是一个潜在的相当有成效的未来研究方向,通过它我们的方法可以得到改进。Meng等人(2016年)没有明确讨论如何调整截距项中的偏差。因此,我们将相同的干扰项报告为有偏回归。定理1理论结果的证明。在假设1-3下,对于随机森林中的任意两棵树,i和j(i6=j),limn→∞EiEjEfCov(bX(j),e(i))=0。证据采用Breiman(2001)的表示法,随着随机森林中树木的数量趋于一致,森林的泛化误差表示为P E(f rest)=limM→∞Ef[bX- 十] 。接下来,我们将两个已知结果重申为引理。引理1。(布莱曼,2001,定理11.2。)森林=EiEjEfCov(E(i),E(j))。引理2。(Scornet等人,2015年,定理1)假设1-2,limn→∞pe(森林)=0。这两个引理共同暗示limn→∞EiEjEfCov(e(i),e(j))=0。它跟在t·哈特林后面→∞EiEjEfCov(e(i),e(j))=0<=> 画→∞埃耶夫科夫e(i)、(bX(j)- 十)= 0<=> 画→∞EiEjEfCov(e(i),bX(j))- 画→∞EiEfCov(e(i),X)=0基于假设3(经典测量误差),limn→∞埃夫科夫(e(i),X)=0。因此,我们有→∞EiEjEfCov(bX(j),e(i))=0。定理2。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:48:30
随机森林二元分类的错误率随着ejecicorr(|e(i)|,|e(j)|)而降低,其中e(i)和e(j)是树i和树j(i6=j)的预测误差。证据Breiman(2001)证明了随机森林的错误率随着Ejeichcorr(rmg(bX(i)),rmg(bX(j)))i而降低,其中rmg(bX(i))表示树i预测的原始边缘函数。在二元分类下,原始边际函数定义为rmg(bX(i))=i(bX(i)=X)-I(bX(I)6=X),其中I是一个指示符函数,用于检查向量X(I)和X元素,如果封闭关系为真,则取值1,否则取值0。换句话说,I(bX(I)=X)是一个向量,正确的预测用1标记,I(bX(I)6=X)是一个向量,错误的预测用1标记。将1=(1,…,1)表示为1的向量,长度与预测向量相同。显然,我们有I(bX(I)=X)=1- I(bX(I)6=X)和I(bX(I)6=X)=|e(I)|。因此,我们知道Corr((rmg(bX(i)),rmg(bX(j))=Corr(i(bX(i)=X)-I(bX(I)6=X),I(bX(j)=X)-I(bX(j)6=X))=Corr(1)-2I(bX(i)6=X),1- 2I(bX(j)6=X))=Corr(I(bX(I)6=X),I(bX(j)6=X))=Corr(|e(I)|,|e(j)|)。定理3。我∈ {1,…,M},Cov(e(i),X)<0。证据对于给定的样本大小为N的情况,我们证明了这个定理。为了简单起见,我们写下基本真值asX={ak}Nk=1,同样地写下树i的预测向量和误差向量asbX(i)={pik}Nk=1,e(i)={eik}Nk=1。假设ak=α和pik=β的数据点的数量是nαβ(α,β∈ {0, 1}). 很明显,n+n+n+n=n,X和e(i)之间的关系b完全描述如下:o存在数据点,其中ak=0,eik=0;o存在ak=0和eik=1的数据点存在ak=1和eik=-1;o 存在ak=1和eik=0的数据点。接下来,写出Cov(e(i),X)=N(NPeikak)-佩克)。请注意,Peikak=-n、 佩克=n- n、 andPak=n+n。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:48:37
因此,我们有NPeikak-佩克=-(n+n+n+n)n-(n)-n) (n+n)=-nn- 2nn- nn<0,相应地,Cov(e(i),X)<0。定理4。i 6=j∈ {1,…,M},Cov(e(i),e(j))>0 i f且仅当(p+p)(p+p)+2(p0o)- p) p+2(p1o)- p) p+(p- p) (p- p) >0。证据同样地,对于给定的样本大小为N的情况,我们证明了这个定理。再次,我们写出了树i的基真值asX={ak}Nk=1,并写出了树i的预测向量和误差向量asbX(i)={pik}Nk=1,e(i)={eik}Nk=1。首先,我们在下表中列出了ak、pik、pjk、eik、ejkin的所有可能值组合:akpikpjkCount eikejkAbbr。计数符号0n=n×p00n10n=n×p10n01n=n×p01n11n=n×p11n0n=n×p-1-1n10n=n×p001-1n01n=n×p-100n11n=n×p00nnext,写入Cov(e(i),e(j))=n(NPeikejk-PeikPejk)。注意peikejk=n+n,Peik=(n+n)-(n+n)和pejk=(n+n)-(n+n)。然后,NPeikejk-PeikPejk=(n+···+n)(n+n)-[(n+n)-(n+n)][(n+n)-(n+n)]。n+n)和B=[(n+n)-(n+n)][(n+n)-(n+n)],我们分别计算这两个量,如下所示。首先,我们重写a=(n+···+n)n+(n+··+n)n=(n+n)(n+n)+(n+n+n)n+(n+n+n)n+(n+n+n)n+(n+n+n)n第二,我们重写b=(nn+nn+nn+n)+(nn+nn+nn+n)- (nn+nn+nn+nn)- (nn+nn+nn+nn)=(nn+nn)- nn- nn)+(n+n+n)n+(n+n+n)n- (n+n+n)n- (n+n+n)我们有NPeikejk-PeikPejk=A-B=(n+n)(n+n)+2(n+n+n)n+2(n+n+n)n+(nn+nn)-nn-nn)=(n+n)(n+n)+2(n+n+n)n+2(n+n+n)n+(n-n) (n)-n) 。使用原始计数符号,右侧h和d相当于(n+n)(n+n)+2(n0o)- n) n+2(n1o)- n) n+(n- n) (n)- n) 。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:48:43
因此,Cov(e(i),e(j))>0<=>N[(N+N)(N+N)+2(n0o)-n) n+2(n1o)-n) n+(n-n) (n)-n) ]>0<=> (p+p)(p+p)+2(p0o)-p) p+2(p1o)- p) p+(p- p) (p- p) >0。我在实践中使用ForestIV在实践中,因为真正的系数不是先验的,所以有一些指导方针来衡量ForestIV在特定有限样本中的有效性是有用的。1.使用保持数据集(如Dtest),研究人员可以在建议的两步套索选择前后,根据经验评估仪器的有效性和强度。2.霍特林测试统计数据也可能是一个有用的信号。与Hotelling TTESComparingBβlabeland ForestIV估算值相关的p值表明,在同等标准下观察其经验差异的可能性。研究人员可以通过调整该测试的显著性水平来确定他们在接受ForestiveEstimates之前需要的证据阈值。3.研究人员还可以检查ForestIV的渐近特性是否尚未“发挥作用”,方法是,当该程序暴露于更多未标记的数据时,检查得出的系数估计中的经验收敛性。如果收敛图表明系数估计尚未稳定,这可能表明ForestIV估计尚未收敛,可能需要更多的u标记数据。最后,为了更好地描述ForestIV的使用情况,我们重申,如果标记数据的大小足够大,以至于仅使用可用的标记数据就可以足够可靠和精确地估计BβLabel,那么首先就不需要挖掘变量。人们应该简单地进行推理和决策。因此,在确定特定推理问题需要“大数据”和机器学习方法时,统计功效分析可能很有用(Ellis,2010)。参考资料:C.C.Aggarwal。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:48:49
(2015). 数据挖掘:教科书。斯普林格。Angrist,J.D.和Krueger,A.B.(1995年)。Sp lit——教育回报率的样本工具变量估计。商业与经济统计杂志,13(2):225-235。Angrist,J.D.和Pischke,J-S.(2008)。基本无害的计量经济学:经验主义者的伴侣。普林斯顿大学出版社。Angwin,J.,Larson,J.,Mattu,S.,和Kirchner,L.(2016)。机器偏差。普罗普利卡,5月23日。Athey,S.和Imbens,G.(2016)。针对异质因果效应的递归划分。美国国家科学院院刊,113(27):7353-7360。Athey,S.和Imbens,G.W.(2017)。应用计量经济学的现状:因果关系和政策评估。《经济展望杂志》,31(2):3-32。贝洛尼,A.,陈,D.,切尔诺朱科夫,V.,和汉森,C.(2012)。优化仪器的稀疏模型和方法,并应用于征用权。《计量经济学》,80(6):2369-2429。S.伯纳德、S.亚当和L.赫特(2012)。动态随机森林。模式识别字母,33(12):1580-1586。伯纳德,S.,霍特,L。,亚当·S.(2010)。随机森林中强度和相关性的研究。在智能计算国际会议上,第186-191页。斯普林格。布莱克·伯恩,M.和纽马克,D.(1992年)。不可观察的能力、效率工资和行业间工资差异。《经济学季刊》,107(4):1421-1436。Blaser,R.和Fryzlewicz,P.(2016)。随机旋转组合。机器学习研究杂志,17(1):126-151。布伦德尔,R.W.和鲍威尔,J.L.(2004)。半参数二元反应模型的内生性。经济研究综述,71(3):655-679。布莱曼,L.(1996)。装袋预测因子。机器l,24(2):123-140。布莱曼,L.(2001)。随机森林。机器学习,45(1):5-32。Buolamwini,J.和Gebru,T.(2018年)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:48:56
性别差异:商业性别分类中的交叉准确性差异。公平、问责和透明度会议,第77-91页。Buse,A.(1992年)。工具变量估计的偏差。计量经济学:计量经济学学会杂志,第173-180页。卡罗尔,R.J.,马卡,J.D。,和Ruppert,D.(1999年)。测量误差存在时的非参数回归。Biometrika,86(3):541。切诺朱科夫,V.,切特韦里科夫,D。,Demirer,M.,Du Flo,E.,Hansen,C.,和Newey,W.K.(2016)。治疗和因果参数的双机器学习。技术报告,cemmap工作文件。康利,T.G.,汉森,C.B.,和罗西,P.E.(2012)。似乎是外生的。《经济学与统计学评论》,94(1):260-272。库克,J.和圣埃芬斯基,L.(1994年)。参数测量误差模型中的模拟外推估计。《美国统计协会杂志》,89(428):1314-1328。Denisko,D.和Ho Off man,M.M.(2018年)。随机森林中的分类和相互作用。《国家科学院院刊》,第201800256页。埃贝斯,P.,韦德尔,M.,和伯克霍尔特,U.(2009)。节俭iv替代方案,用于确定内生回归器的参数。应用计量经济学杂志,24(3):446-468。埃贝斯,P.,韦德尔,M.,伯克霍尔特,U.,和圣埃恩埃曼,T.(2005)。在没有工具变量的情况下,解决并测试回归误差(in)依赖性:有新的证据表明教育对收入的影响。定量营销与经济学,3(4):365–392。Ellis,P.D.(2010)。影响大小的基本指南:统计能力、元分析和研究结果的解释。剑桥大学出版社。范aee-T,H.和伽马,J.(2014)。结合集合探测器和背景知识的事件标记。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:49:02
《艺术智能进展》,2(2-3):113-127。Fern’andez Delgado,M.,Cernadas,E.,Barro,S.,和Amorim,D.(2014)。我们是否需要数百名分类师来解决现实世界的分类问题?机器学习研究杂志,15(1):3133-3181。方g,C.和泰勒,M.(2017)。使用分类产生的协变量进行回归。工作文件。Freund,Y.,Schapire,R.E.,等人(1996年)。用一种新的boosting算法进行实验。Icml第96卷第148-156页。意大利巴里。格布鲁,T.,克劳斯,J.,王,Y.,陈,D.,邓,J.,艾登,E.L.,费飞,L.(2017)。使用深度学习和谷歌街景来估计美国各地社区的人口构成。美国国家科学院院刊,第201700035页。Giot,R.和Cherrier,R.(2014)。提前一天预测bikeshare系统的使用情况。2014年IEEE车辆和运输系统计算智能研讨会,第22-29页。IEEE。伊利诺伊州古德费罗、纽约州本吉奥和A.库维尔(2016年)。深度学习。麻省理工学院出版社。格雷斯,凯西。Y.(2016)。具有测量误差或错误分类的统计分析。斯普林格。格林·W·H.(2003)。经济计量分析。培生教育学院。古斯塔夫森,P.(2003)。统计学和流行病学中的测量误差和错误分类:影响和贝叶斯调整。华润出版社。小哈里森·D.和鲁宾菲尔德·D·L.(1978)。享乐的房价和对清洁空气的需求。环境经济和管理杂志,5(1):81-102。豪斯曼,J.(2001)。计量经济分析中的变量测量错误:来自右翼的问题和来自左翼的问题。《经济展望杂志》,15(4):57-67。Hausman,J.,Newey,W.,I chimura,H.,和Powell,J.(1991)。多项式回归模型中的测量误差。计量经济学杂志,50(3):273-295。豪斯曼,J.A.,纽伊,W.K.,和鲍威尔,J.L.(1995)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:49:08
某些曲线变量估计中的非线性误差。计量经济学杂志,65(1):205-233。Jelveh,Z.,Kogut,B.,和Naidu,S.(2015)。经济学中的政治语言。工作文件。K–uchenho Off,H.,Lederer,W.,和Lesa Offre,E.(2007年)。误分类SIMEX的总方差估计。计算统计和数据分析,51(12):6197-6211。K–uchenho Off,H.,Mwalili,S.M.,和Lesa Offre,E.(2006年)。处理回归错误分类的一般方法:错误分类SIMEX。B计量学,62(1):85-96。Lewbel,A.(2019年)。使用工具变量来估计具有错误测量回归系数的模型。工作纸。李婷(2002)。变量模型中非线性误差的稳健一致估计。计量经济学杂志,110(1):1-26。林泰山,陆,W-Y.,安德西,Y-S.(2000)。对33种新旧分类算法的预测精度、复杂性和训练时间进行比较。机器学习,40(3):203–228。Loken,E.和Gelman,A.(2017)。测量误差和复制危机。《科学》,355(6325):584-585。E.曼曼、C.罗特和M.席恩勒(2016年)。生成协变量的半参数估计。计量经济学理论,32(5):1140-1177。Mammen,E.,Rothe,C.,Schienle,M.,等人(2012年)。具有非参数生成协变量的非参数回归。《统计年鉴》,40(2):1132-1170。麦克福兰德三世,E.,索曼奇,S。,和Neill,D.B.(2018年)。通过异常模式检测,在随机实验中有效发现异质性治疗效果。arXiv预印本arXiv:1803.09159。Meng,L.,Wu,B.,和Zh an,Z.(2016)。带估计回归器的线性回归:经济发展综合指标的应用。实证经济学,50(2):299-316。莫罗,S。,Cortez,P.和Rita,P.(2014年)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:49:16
预测银行电话营销成功与否的数据驱动方法。决策支持系统,62:22-31。墨菲,K。M.和托佩尔,R.H。(1985). 两步计量经济模型中的估计和推断。商业和经济统计杂志,20(1):88-97。默里,M.P.(2006)。避免使用失效的仪器,应对薄弱的仪器。《经济展望杂志》,20(4):111-132。纳加尔,A.L.(1959年)。同时方程中参数的一般k类估计的偏差和矩矩阵。计量经济学:计量经济学学会杂志,第575-595页。纽伊,W.K.(1984)。序列估计器的矩解释方法。《经济学快报》,14(2-3):201-206。纽伊,W.K.(2001)。变量模型中非线性误差的灵活模拟矩估计。《经济学和统计学评论》,83(4):616-627。Oxley,L.和McAleer,M.(1993年)。具有生成回归器的宏观经济模型中的计量经济学问题。《经济调查杂志》,7(1):1-40。帕根,A.(1984)。用生成回归器分析回归中的计量经济学问题。《国际经济评论》,第221-247页。Roodman,D.(2009年)。关于太多乐器主题的注释。牛津经济与统计公报,71(1):135-158。罗斯·K.(1998)。聚类、压缩、分类、回归和相关优化问题的确定性退火。IEEE会议录,86(11):2210-2239。Ryu,J.Y.,Kim,H.U.,和Lee,S.Y.(2018)。深度学习提高了对药物-药物和药物-食物相互作用的预测。美国国家科学院院刊,115(18):E4304-E4311。Schennach,S.M.(2004)。具有测量误差的非线性模型的估计。《计量经济学》,72(1):33-75。Schennach,S.M.(2016)。测量误差文献的最新进展。《经济学年鉴》,8:341-377。谢纳赫,S.M.和胡,Y.(2013)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:49:23
无旁侧信息的经典测量误差模型的非参数识别和半参数估计。《美国统计协会杂志》,108(501):177-186。Scornet,E.,Biau,G.,Vert,J.-P.,等人(2015年)。随机森林的一致性。《统计年鉴》,43(4):1716-1741。Seber,G.A.(2009)。多变量观察,第252卷。约翰·威利父子公司。Sperlich,S.(2009)。关于带预测变量的非参数估计的注记。《经济计量学杂志》,12(2):382-395。Verikas,A.,Gelzinis,A.,和Bacauskiene,M.(2011)。用随机森林挖掘数据:newtests的调查和结果。模式识别,44(2):330-349。王新和林,X.(1998)。广义线性混合测量误差模型中的偏差分析和SIMEX方法。《美国统计协会杂志》,93:249–261。Wolberg,W.H.和Mangasarian,O.L.(1990)。医学诊断的多面模式分离方法应用于乳腺细胞学。美国国家科学院院刊,87(23):9193-9196。伍尔德里奇,J.M.(2002)。横截面和面板数据的计量经济学分析。麻省理工学院出版社,剑桥和伦敦。杨,M.,阿多马维修斯,G.,伯特·陈,G.,和任,Y.(2018)。注意差距:考虑通过数据挖掘产生的变量的测量误差和错误分类。信息系统研究,29(1):4-24。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群