此外,如图G.1所示,与SIMEX相比,ForestIV测得的M EDV系数分布的标准偏差更小,表明稳定性也更高。0.3 0.4 0.5 0.6 0.70 5 10 15 MedvdensityBiasedSimexForestiv上的系数图9:M EDV acro-ss模拟运行中的偏差系数和校正系数分布。2使用SIMEX进行基准测试:二元病例我们使用威斯康星州乳腺癌数据集(Wolberg and Mangasarian,1990)。该数据集包含683例乳腺癌诊断的临床病例。我们建立了一个由100棵树组成的随机森林,根据9个生物学特征预测癌症结果(良性或恶性)。与之前的模拟设置类似,我们随机抽取200例作为Dtrain,50例作为Dtest,其余433例作为Dunlabel。接下来,我们模拟一个经济计量模型:Y=1+0.5癌症+2Z+Z+ε(N=683),其中Z~ 制服[-1,1],Z~ N(0,1)和ε~ N(0,0.1)。与之前一样,模拟重复了100轮,我们报告了所有轮的平均系数和标准误差。关于应用MC-SIMEX方法的技术细节,我们再次参考Yang等人(2018)。结果总结在表G中。2.在图G.2中,我们绘制了所有模拟运行中与癌症相关的系数分布。真偏差MC-SIMEX ForestIVIntercept 1.01.013(0.008)1.005(0.008)1.004(0.008)[0.234][0.405][0.505]癌症0.50.463(0.014)0.519(0.059)0.496(0.012)[0.044][0.264][0.739]Z2。0.001(0.011)2.001(0.012)2.000(0.009)[0.492][0.934][0.999]Z1。0.999(0.006)0.999(0.007)0.999(0.006)[0.506][0.868][0.886]平均均方误差0.0028 0.0051 0.0009表12:使用MC-SIMEX和ForestIV的估计结果。括号中的标准错误。p值将估计值与方括号中的真值进行比较。