全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-5-7 08:50:06
如前所述,使用K-折叠交叉验证,存储样本外数据产生最佳性能的自由参数,并应用于后续分析。文献中通常提到K值很小,K=10是最常用的褶皱数之一(参见张[88])交叉验证赛马利用10倍交叉验证对不同模型的泛化性能进行客观的相对评估。交叉验证的后一个目的是赛马的核心,因为它允许模型的比较,因此不同的建模技术,但仍然确保相同的抽样。然而,交叉验证的标准方法可能并非完全没有问题。当我们使用面板数据时,包括横截面和时间维度,我们还应该考虑数据更可能表现出时间依赖性这一事实。尽管交叉验证文献提出了降低依赖性影响的先进技术,如Chu和Marron[22]提出的所谓改进交叉验证(Arlot和Celisse[6]中的进一步示例),但最突出的方法是将每个预测的估计样本限制为历史数据。为了测试模型,从实时分析的角度来看,我们使用一个递归练习,在每个季度仅使用截至该时间点的可用信息导出一个新模型。这使我们能够测试使用一种方法是否能够提供预测2007-2008年全球金融危机的手段,以及如何根据任务的表现对方法进行排名。这涉及到通过滞后的基于会计的指标(2个季度)和基于市场的变量(1个季度)来解释发布滞后。递归算法如下所示。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:10
我们在每四分之一处估计一个模型,利用该点的所有可用信息,评估信号以设置最佳阈值τ*,并在样本数据中提供具有相同阈值ason的每个经济体当前的脆弱性估计。因此,阈值是时变的。最后,我们收集所有的概率和保留值,以及信号,并评估模型在样本外分析中的表现。与任何事后评估一样,必须承认,这项工作也是以准实时的方式进行的,需要注意以下几点。鉴于数据提供者报告数据的方式,不可能对数据修订进行解释,因此可能会在发布后发生潜在变化。此外,我们还试验了两种不同的方法来实时使用危机前时期作为因变量。预测期为三年,只有在三年后,我们才能在每个季度确定当前季度是否是危机前的危机时期(除非过去三年发生了危机)。我们测试了两种方法,一种是降低一个与预测范围相等的窗口,另一种是对指定季度使用危机前时期。作为一场赛马,递归估计从实时分析的角度测试模型。使用尽可能早的样本数据,递归练习从2005年第2季度开始,但QDA方法除外,该方法的分析从2006年第2季度开始,因为与其他方法相比,需要更多的训练数据。该程序使我们能够在没有关于最近危机的累积阶段的事先信息的情况下测试性能。这只是对精确实施的简化。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:14
事实上,我们总结了权变矩阵的所有元素,然后才计算出最终有用性UKr(u)。值得注意的是,使用两个单独的测试,交叉验证和递归评估,仍然有很好的动机。如果我们也会针对递归评估优化自由参数,那么我们可能会冒着将其过度匹配到手头的特定情况的风险。因此,如果交叉验证选择的最佳参数也在递归评估中执行,我们可以确保模型不会过度拟合数据。取消危机前窗口的缺点是,由于时间序列较短,需要的递归起始日期要晚得多,而且会扭曲指标与危机前事件之间的真实关系。后一个论点意味着模型选择,尤其是变量选择,与季度下降将是有偏见的。例如,如果一个指标完美地反映了2008年所有同时发生的危机,而不是更早的危机,那么递归测试将显示糟糕的表现,并指出该指标没有用处。与影响因变量关系的独立变量滞后相比,值得注意的是,在危机前阶段使用该方法不会影响每个季度数据和信息集的最新可用关系。3.2. 聚合过程从单个方法开始,我们通过许多聚合过程将几种不同方法的输出合并为一种。这里的方法来自机器学习的子领域,重点是集成学习,其中的主要目标是使用多状态学习算法以获得更好的预测性能。虽然我们的目标是简单,并且不采用本文中最复杂的算法,但我们在组装学习中使用了两种常见的方法:bagging和boosting。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:18
Bagging代表引导聚合[13],它利用原始数据的重采样,将原始数据聚合为一个模型输出。虽然beingan方法用于集成学习,但我们将在重采样和模型不确定性的主题下对此进行讨论,如第3.3节所示。Boosting[78]指的是计算多个模型的输出,然后用指定的权重对结果进行平均,我们在下面的聚合过程中主要依赖这些权重。为了简单起见,本文没有使用第三组叠加方法[87],它们在单个模型输出的基础上添加另一层模型,以提高性能。同样,我们使用通过交叉验证网格搜索确定的最佳自由参数,然后估计各个方法。为此,我们使用了四种不同的聚合程序:最佳和投票方法,以及概率的算术和加权平均。最佳方法只是通过选择最精确的方法来使用单一方法m。为了以真实的方式使用信息,我们总是选择独立于练习(即交叉验证或递归)的方法,该方法具有最佳的样本相对有用性。简单投票使用所有方法m=1,2,…,的信号Bmnof。。。,M代表每项观察结果,以表明是否以多数票为基础。也就是说,总Ban选择从所有单个方法中获得最大总投票数的类:Ban=1如果MPMM=1Bmn>0.50,则BM为方法m和观察n的二进制输出,Banis为多数票合计的二进制输出。聚合概率需要在建模过程中提前介入。与bestof和voting方法相比,我们直接利用每种方法m的概率pmnof对allobservations n进行平均,将其转化为聚合概率。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:21
更简单的情况是使用算术平均值来推导聚合概率。对于加权聚合概率pan,我们在设置方法权重时利用了样本内模型的性能,因此最精确的方法(样本内)在聚合中的权重最大。观测XnCa的非加权概率和加权概率可以如下导出:pan=MXm=1wmPMm=1wmpmjm,其中每种方法m的概率pmno都用其用于allobservations n的性能度量wm进行加权。在本文中,我们使用权重wm=Umr(u),但该方法适用于任何选择的度量,如AUC。这种加权方法的特点是赋予最不有用的方法以最小的权重,并因此偏向于更有用的方法。对于wm=1,算术平均值可显示为pan=MPMm=1PMN。为了在实时设置中仅使用可用信息,用于加权的Umr(u)总是指样本内结果。为了确保非负权重,我们从性能度量向量中删除了具有负值(即Umr(u)<0)的方法。如果所有方法都显示出负面的有用性,那么它们将被赋予同等大小的权重。计算聚合概率pan后,将其视为一种方法(即pmn)的输出,并将其视为最佳阈值τ*据此确定。相比之下,基于确定的单个方法和表决信号的最佳接近信号,如果且仅限于大多数方法信号,则不需要单独的阈值。因此,总体交叉验证有用性的计算方式与单独方法相同。同样,对于递归模型,过程是相同的,包括使用采样内有效性Umr(u)进行加权。3.3.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:24
模型不确定性我们在这里处理与模型性能不确定性和模型输出不确定性有关的分类任务中的不确定性。虽然从多个来源下降并与多个特征相关,但我们特别关注与模型参数耦合的不确定性。因此,如果使用不同的数据集对模型进行估计,我们将评估模型参数和预测的变化程度。随着数据的变化,预测中的变化是由不精确的参数值引起的,否则预测总是相同的。不要把可变性和模型性能的测量混为一谈,预测中的零参数值不确定性仍然不意味着完全准确的预测。为了表示任何不确定性,我们需要推导估计值的属性,包括标准误差(SE)、置信区间(CI)和临界值(CV)。为了在预警建模中进行稳健的统计分析,我们首先介绍了通过重采样进行早期预警推断的一般方法,然后介绍了评估模型性能和输出不确定性所需的规格。预警推理。从传统的统计理论中推导和推导估计值性质的标准方法。如果我们知道数据生成过程(DGP),我们也知道对于数据x,x。。。,xN,我们用平均值^θ=PNn=1xn/N来估计x的期望值,SE^σ=rPNn=1xn-^θ/n显示^θ估计真实期望的程度,以及通过^θ±t··∑(其中t是CV)的CI。然而,我们很少知道DGP,因此无法从原始人群中生成新样本。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:28
按照上述交叉验证[82]的思路,我们通常可以模拟通过一系列重采样技术获得新数据的过程,包括置换测试[35]、折刀[65]和引导[27]。在这一阶段,我们将重采样概括为对同一已知样本的子样本进行随机和重复采样。因此,在不生成额外样本的情况下,我们可以使用估计量的抽样分布来推导感兴趣的估计量及其属性(即SEs、CIs和CVs)的可变性。对于推导估计器性质的重采样技术的一般性讨论,读者参考了埃夫隆[28,29]和埃夫隆与蒂布什拉尼[30,31]的原著。让我们考虑一个n=1的样本。。。,N一个因变量yng和解释变量xn的独立观测值。我们认为我们的重采样是通过从观察样本中绘制独立的Lyn对(xn,yn)来配对的。重采样包括随机抽取样本s=1。。。,从观察到的样本中提取,在这种情况下,单个样本为(xsn,ysn)。为了估计任何估计器^θ的SEs,我们利用重采样^θ的经验标准偏差来近似这些σ(^θ)。我们的工作如下:1。从(xn,yn)中提取大小为N的独立样本(xsn,ysn)。通过^θ估计参数θ*对于每个重采样s=1。。。,S.3。通过σ=rS估算σ(θ)-1Ps=1^θ*s-^θ*, θ在哪里*=SPSs=1^θ*s、 现在,给定一个一致且渐近正态分布的估计量^θ,重采样的SEs可以分别用于构造近似CI和基于正态分布进行渐近检验。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:31
因此,我们可以使用百分位数构建一个双侧不对称但等尾(1- α) CI,其中重采样的经验百分位数(α/2和1- α/2)被用作模型参数不确定性的下限和上限,无论估计有多精确,模型都不会是完美的,因此总是存在剩余模型误差。为此,我们没有解决模型结构中的错误导致的模型输出(或模型错误)的不确定性,尤其是与我们数据集中使用的危机事件和指标(即自变量和因变量)有关的不确定性。信任边界的限制。我们利用上述步骤1和2,然后按如下步骤进行:。对估计量^θ的重采样复制进行排序,使^θ*≤ ... ≤^θ*B.使用S·α/2和S·(1)- α/2)阶元素作为置信边界的下限和上限,估计(1- α) ^θish^θ的CI*S·α/2,^θ*S·(1)-α/2)i.使用上面讨论的重采样SEs和近似CI,我们可以使用空H的常规(但近似)双边假设检验:θ=θ。如果θ在双尾(1)外- α) 对于显著水平α,无效假设被拒绝。然而,如果我们有两个具有非重叠CI的重采样估计量^θi和^θj,很明显,它们必然存在显著差异,但如果它们重叠,则不一定存在显著差异。我们关心的不是平均数,而是两种平均数之间差异的检验统计。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:35
对于(1)而言,两种方法存在显著差异- α) 当群体平均数之间差异的CI不包含零时的置信水平:^θi-^θj- tq^σi+^σj>0。然而,我们可能违反了正态假设,因为计算CIs的传统学生t分布依赖于从异常人群中抽样。尽管我们可以通过中心极限定理证明,如果父总体的抽样是独立的,分布是近似正态的,但近似程度仍然取决于样本量N以及父总体与正态的接近程度。由于重采样背后的共同目的不是强加这种分布假设,一种常见的方法是依赖所谓的重采样t区间。因此,根据重采样的统计数据,我们可以解决t*并在经验分布上使用信心削减。给定^θ和^σ(^θ)的一致估计,以及t统计量t=^θ的正态渐近分布-θ^σ(^θ)→ N(0,1),我们可以导出近似对称CVs t*从t统计量的所有重采样的经验分布的百分位数。1.使用观察样本一致地估计参数θ和σ(θ):θ和σ(θ)。从(xn,yn)中提取大小为N的独立重采样(xsn,ysn)。假设θ=^θ,估计t值t*s=^θ*s-^θ^σ*s(^θ)对于s=1。。。,θ在哪里*沙^σ*s(^θ)是θ及其SE的重采样。4.对t的重采样复制品进行排序,使| t*| ≤ ... ≤ |T*S |。用S·(1)- α) 作为CV,我们有tα/2=T*S·(1)-α)和t1-α/2=T*S·(1)-α).利用这些对称CV,我们可以利用上述平均值比较测试。然而,由于两种方法的重采样t间隔的CVS可能不同,我们对测试统计数据进行如下修改:^θi-^θj-T*jS·(1)-α) +t*是·(1)-α) q^σi+^σj>0。模型性能不确定性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:40
对于一场稳健的赛马和方法排名,我们利用抽样技术来评估模型性能的可变性。我们计算每个单独的方法和重新取样的总SEs的相对有用性和AUC度量。然后,我们使用SEs获得测量的CV,分析方法和集合之间的成对性,以及区间是否表现出统计上的显著重叠,并生成表示方法和集合之间成对显著差异的矩阵。更正式地说,与检验统计量相比,如果较大均值的CI下界大于较小均值的CI上界,或^θi+t·^σi>^θj+t·^σj,我们可以看到两个均值没有重叠。而simplealgebra给出了如果^θi+t·^σi>-^θj>t^σi+^σj, 检验统计量仅通过平方根和平方和进行区分:^θi-^θj>tp^σi+^σj。Asp^σi+^σj<^σi+^σj,很明显,在两组平均CI之间没有重叠之前,平均差异变得明显。和j具有相同的样品外性能,可表示为H:Uir(u)=Ujr(u)(和同样的forAUC)。为此,方法I和j的样本外性能差异的替代假设是H:Uir(u)6=Ujr(u)。在机器学习中,有监督的学习算法由于两个误差源(偏差和方差)而无法对其训练数据进行泛化。偏差指的是学习算法中错误假设产生的误差(即低于fit),而方差则指的是训练集中小波动敏感性产生的误差(即高于fit)。上述K-折叠交叉验证可能会导致模型具有高方差和非零但小偏差的风险(例如,Kohavi[56],Hastine等人[41])。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:43
为了解决相对较高方差的可能性,并更好地得出属性(即SEs、CI和CVs)的估计值,通常建议重复交叉验证。这允许平均模型性能,从而对平均性能进行排序,而不是单独的估计,并且更好地导出估计的属性。对于单个方法和聚合,我们使用了500次重复的交叉验证(即S=500)。在递归练习中,由于前几个季度的样本量有限,我们选择使用带替换的重采样来评估模型性能的不确定性。Efron[27]和Efron and Tibshirani[31]介绍了引导方法家族。给定数据x,x。。。,xN,bootstrapping意味着通过使用替换的fromx重新采样来绘制大小为N的随机样本,留下一些数据点,而其他数据点将被复制。因此,平均约63%的训练数据用于每个引导。然而,标准引导过程将数据重新计算为i.i.d.,因此不考虑数据中可能存在的依赖关系。由于早期预警模型通常使用面板数据,因此需要假设横截面和时间序列的依赖关系。根据Kapetanios[52]和Hounkannounonon[45],我们因此利用双自举进行稳健的递归赛马,由两部分组成:横截面重采样和移动块自举。对于尺寸为E×T的面板数据,其中E是实体数,T是周期数,横截面重采样需要绘制完整的时间序列,并替换实体。K¨unsch[55]引入的移动块自举法,在定义的观测值大小B上绘制块,以保持重采样块内的时间依赖性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:46
我们的双引导程序以以下方式将两者结合起来:1。从尺寸E×N的可用样本数据中,绘制带有替换的E实体。这构成了伪样本S*.2.从获得的伪样本S*, 从所有项目中随机抽取一个大小为B的区块。3.重复2。通过在末端切割,直到所有组合块的长度大于N。这构成了最终的引导样本**.对于每个季度,我们随机抽取引导样本**使用上述程序从可用的样本数据中提取,重复500次。每个引导都被单独处理,以计算各个方法和聚合的性能。然后对这些结果进行平均,以获得每种方法和聚合的稳健自举分类器的相应结果。模型输出不确定性。为了评估估计概率和最优阈值以及信号的可靠性,我们研究了模型输出不确定性的概念。感兴趣的问题是,估计的概率在统计学上是否显著高于或低于某个最佳阈值。更正式地说,概率pn∈ [0,1]和τ*N∈ [0,1]相等可以表示为H:pn=τ*n、 因此,概率Pn和最佳阈值τ不同的替代假设*nis H:pn6=τ*N
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:49
这既可以测试单个方法的概率Pm,也可以测试聚合panas的概率及其阈值τ*mnandτ*一重复交叉验证并非完全没有问题(例如Vanwinckelen和Blockeel[85]),但仍然是同时评估普遍性和不确定性的更好方法之一。我们通过计算估计概率和最佳阈值的SEs来评估模型输出的可信度,无论是单个方法还是聚合。我们遵循模型性能不确定性的方法来计算CVs和平均值比较测试。对于交叉验证和引导,样本外概率的500次重采样分别针对每种方法进行计算,并在加权和不加权的情况下进行平均,如上所述(即S=500)。根据这些数据,根据自举危机概率和最佳阈值,平均值和SE被绘制出来,并用于构建单个方法和集合的CV,这使我们能够测试模型输出在统计上显著高于或低于阈值的时间。上述实现的bootstrapsa还有另一个用途。我们利用CI作为不确定性的视觉表现。因此,我们产生了信心bandsh^θ*S·α/2,^θ*S·(1)-α/2)每个方法和国家的概率和阈值的完整时间序列,在评估模型输出的可靠性时,这是政策目的的有用信息。3.4. 赛马练习总结为了总结上述练习,我们在此提供交叉验证和递归赛马的简单描述,以及其中的步骤交叉验证:将整个样本分成大小相等的k倍,并使用剩余的k倍估计模型和阈值- 1倍的数据。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:52
收集每个遗漏折叠的样本外概率和二元预测递归:利用样本范围外的数据,将其分为各个季度,对模型进行估计,并使用每个季度之前的所有可用数据计算最佳阈值。对于这两个练习,所有样本外输出最终都会重新组装,并通过一系列评估指标对性能进行总结。这两种方法在数据采样方面有所不同,尤其是用于每次估计的样本内和样本外分区。虽然交叉验证在机器学习中很常见,并且允许有效地使用小样本,但尽管最有可能表现出时间依赖性,但数据是随机抽样的,这可能会让练习受益。相反,递归练习通过严格使用样本外预测的历史样本来解释数据中的时间依赖性,然而这需要更多数据,尤其是在时间序列维度。这两个练习允许探索不同方法的性能,以及评估练习对性能的影响。对于这两个练习,我们将通过以下步骤来估计单个模型、聚合模型输出并表示模型和性能不确定性:o在上述练习之后,使用所有单个方法m=1、2、。。。,M.o从PMM模型到暂停四种方法的聚合模型输出:最佳、投票、非加权和加权通过使用样本内数据的抽样(有或没有替换)和报告统计上显著的排名,重复练习来表示单个和聚合方法的模型性能不确定性通过使用样本内数据采样(有或没有替换)重复练习,并报告统计上的重大信号和非信号,来表示单个和聚合方法的模型输出不确定性。4.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:55
本节将上述介绍的概念应用于实践。使用欧洲样本,用大量方法完成赛马,应用聚合程序,并举例说明解释和表示模型不确定性的用途和有用性。4.1. 模型选择首先,我们需要为许多方法的自由参数导出合适的(即最佳)值。以上讨论的方法中,大约有一半有一个或多个与其学习算法相关的自由参数,其最优值是根据经验确定的。总之,这些方法是:信号提取、LASSO、KNN、分类树、随机森林、ANN、ELM和SVM。为了对这六种方法进行模型选择,我们利用网格搜索来寻找与样本外性能相关的最佳自由参数。根据每个自由参数的通用经验法则(即,通常为最小值和最大值以及其间的规则步骤)选择一组测试值,然后在参数集笛卡尔积的离散参数空间上执行穷举网格搜索。为了获得可推广的模型,我们使用10次折叠交叉验证和优化样本外有用性来指导算法的规格。最后,选择样本外有用性最高的参数组合,作为每种方法的等时参数。对于信号提取方法,我们改变使用的指标,并选择最有用的指标(完整表格见附录中的表a.1)。CHOSEN参数如表5所示。表5:通过网格搜索算法获得的最佳参数。方法参数信号提取偿债率套索λ=0.0012KNN k=2距离=1树木复杂度=0.01随机森林树木数量=180。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:50:59
采样的预测器数量=5ANN隐层单元数量=8最大迭代次数=200权重衰减=0.005ELM隐层单元数量=300激活函数=Tan sigSVMγ=0.4成本=1核=径向基4。2.预警模型赛马我们在本节中进行两种赛马:交叉验证赛马和递归赛马。这为预警方法的排序和同时使用多个模型提供了一个起点。交叉验证比赛。对预警方法进行排名的第一种方法使用10倍交叉验证。交叉验证工作的目的不是优化自由参数,而是生成包含所有方法的可比模型,这可以通过相似的数据采样和建模规范得到保证。对于上述方法,我们使用表5所示的最佳参数。没有自由参数的方法通过10倍交叉验证,无需进一步ado。表6显示了各预警方法交叉验证赛马的样本外结果,按有用性递减排序。首先,我们可以注意到SimpleApproach,如信号提取、LDA和logit分析,在可用性方面优于大多数机器学习技术。另一方面,最有用的方法是KNN和SVM。在AUC方面,QDA、random forest、ANN、ELM和SVM都取得了良好的效果。仍然值得注意的是,标准交叉验证测试不能解释潜在的过度相关性,因为信号提取的性能不佳可能会产生问题,我们还显示了u=0.9193=1的结果- 附录表A.2中的Pr(C=1)。考虑到事件的无条件概率,这个偏好参数有可能产生最大的效用。因此,我们还可以为大多数指标找到更大的有用价值。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:02
这突出了信号提取对所选偏好的敏感性。值得注意的是,网格搜索算法返回的ELM方法的最佳隐藏单元数量异常高。然而,如下所示,在交叉验证尤其是实时练习中,使用ELM方法获得的结果似乎没有表现出过度拟合。此外,通过比较ELM和ANN的结果(ANN只有八个隐藏单元),所有测试中的样本外结果本质上是相似的。由于数据的非线性依赖性,模型中的方法也更容易表现出非线性依赖性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:06
然而,这可以通过递归实时分析轻松控制。表6:交叉验证估计的赛马。秩法精确查全率精确查全率精确查全率FP率FN率Ur(μ)AUC1 KNN 89 11 1048 4 0.89 0.96 1.00 0.99 0.99 0.01 0.04 0.06 93%0.9882 SVM 91 22 1037 2 0.81 0.98 1 0.00 0.98 0.02 0.02 0.06 92%0.9983 ELM 87 18 1041 6 0.83 0.99 0.98 0.98 0.02 0.07 0.06%0.9974神经网络85 11 1048 0.89 0.91 0.99 0.99 0.01 0.010.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0 1.810.98 0.91 0.90 0.09 0.19 0.04 54%0.93411 LDA 76 122 937 17 0.38 0.82 0.98 0.89 0.88 0.12 0.18 0.03 49%0.92712信号提取15 39 1020 78 0.28 0.16 0.93 0.96 0.90 0.04 0.84 0.00 6%0.692消极因素:该表报告了给定最佳阈值的交叉验证样本外性能排名,偏好为0.8,预测范围为5-12个季度。该表还在列中报告了评估模型总体性能的以下指标:TP=真阳性,FP=假阳性,TN=真阴性,FN=假阴性,精确阳性=TP/(TP+FP),召回阳性=TP/(TP+FN),精确阴性=TN/(TN+FN),召回阴性=TN/(TN+FP),准确度=(TP+TN)/(TP+TN+FP+FN),绝对和相对有效性Ua和Ur(见公式1-3),AUC=ROC曲线下的面积(TP率与FP率)。有关这些措施的更多详细信息,请参见第2.2节。TPFPTNFN积极的安全竞赛。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:09
为了进一步测试所有单个方法的性能,我们在这些方法之间进行了递归赛马。如第3.1节所述,从2005年第二季度开始(2006年第二季度为QDA),我们估计每个季度有可用信息的新模型,以识别同一季度的漏洞。除少数例外情况外,表7中的结果与表6中交叉验证赛马的结果一致。例如,排名前六位的方法都是相同的,只是在等级上存在微小差异,分类树在递归练习和交叉验证练习中表现不佳。一般来说,基于机器学习的方法再次优于早期预警文献中更传统的技术。在递归练习中,我们也用所谓的“未知事件”进行实验,因为已知任何给定的事件只有在预测期过去时才会平静。因此,我们测试了两种方法:(i)在每个季度删除一个长度相等的窗口作为预测范围,以及(ii)在指定的季度简单地使用危机前时期。我们可以得出结论,减少季度数对方法的排名没有影响,对绩效指标的水平只有轻微的负面影响。由于数据要求(仅2006年第二季度适用于QDA),2005年第三季度仅为开始季度,除此之外,表a。附录中的3显示了与表7类似的递归练习的结果,但每个预测季度之前的危机前窗口已被删除。需要注意的是,数据稀疏性阻碍了当前指标集的这项工作,因此我们放弃了贷款收入指标。虽然该表显示平均URC从46%下降到32%,平均AUC从0.87下降到0.86,这可能也与降低一个指标有关,但个别方法的排名没有变化,有少数例外。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:13
排名变化最大的是QDA,但这可能会在很大程度上与第一季度的变化相去甚远,并且只涉及有用性,因为AUC接近不变。此外,虽然机器学习方法的Ur(AUC)平均下降了13个百分点(0.01),但更传统的统计方法下降了16个百分点(0.05)。因此,这并不意味着将事件分配到参考季度会导致超额。方法调色板的附加值是,它不仅允许手工挑选类技术中最好的方法,还允许同时使用所有或多个方法。对于那些不熟悉机器学习方法的人来说,最近的一些机器学习方法可能不太容易理解,因此同时使用大量方法可能会通过性能比较和同时评估模型输出来建立可信度。因此,多个模型的目的与确认用途有关,因为政策通常是自由裁量过程的最终产品。另一方面,模型输出的不同性也可以被视为说明模型输出的不确定性或变化的一种方式。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:17
然而,这需要更结构化的评估(如第4.4节所述)。表7:递归实时估计的赛马。秩次法精确查全率精确查全率精确查全率FP率FN率Ua(μ)Ur(μ)AUC1 KNN 78 4 247 13 0.95 0.86 0.95 0.98 0.95 0.02 0.14 0.11 78%0.9762 QDA 44 5 230 12 0.90 0.79 0.95 0.98 0.94 0.02 0.21 0.12 76%0.9813神经网络79 13 238 12 0.86 0.87 0.95 0.95 0.93 0.05 0.13 0.11 76%0.9624支持向量机76 3 248 15 0.96 0.84 0.94 0.0.94 0.0.01 0.01 0.01 0.01 0.11%0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.88 0.63 0.66 0.370.24 0.04 28%0.85111分类树42 24 227 49 0.64 0.46 0.82 0.90 0.79 0.10 0.54 0.02 12%0.6161612信号提取25 85 166 66 0.23 0.28 0.72 0.66 0.56 0.34 0.73-0.06-39%。该表还在列中报告了评估模型总体性能的以下指标:TP=真阳性,FP=假阳性,TN=真阴性,FN=假阴性,精确阳性=TP/(TP+FP),召回阳性=TP/(TP+FN),精确阴性=TN/(TN+FN),召回阴性=TN/(TN+FP),准确度=(TP+TN)/(TP+TN+FP+FN),绝对和相对有效性Ua和Ur(见公式1-3),AUC=ROC曲线下的面积(TP率与FP率)。有关这些措施的更多详细信息,请参见第2.2节。TPFPTNFN4呈阳性。3.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:20
模型的聚合在使用单一技术或多种技术的同时,下一步显然是将它们聚合为一个模型输出。这是通过四种方法完成的,如第3节所述。2.前两种方法结合了各个方法的信号,方法是(i)根据样本内性能,仅使用样本外分析的最佳方法,以及(ii)多数票,允许同时使用所有模型信号。第三种和第四种方法通过推导表6和表7中所有方法概率的算术和加权平均值,依赖于每种方法的估计概率。加权模型输出的一种自然方式是使用它们在样本中的性能,在我们的例子中是相对有用的。这允许对那些性能更好的方法给予更大的权重,并产生与单个方法类似的模型输出,这些方法可以通过交叉验证和递归练习进行测试。表8给出了交叉验证和草书练习的四种不同聚合方法的结果。同时使用许多模型通常会产生良好的结果。虽然交叉验证模型排名前五位,但在递归估计中,四分之三的聚合方法排名前两位。在递归练习中表现更好的一个潜在解释是,这是一个更严格的测试,交叉验证的练习可能会因褶皱之间的过度相关性而产生偏差。因此,在消除采样中的潜在依赖性时,集成方法的性能优于单独的机器学习方法。此外,我们还减少了所选方法的不确定性,因为样本(或先验)绩效并不是未来绩效无可争议的指标。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:23
也就是说,除了有可能说服决策者(他们可能对一种方法比其他方法更感兴趣)之外,聚合还解决了基于性能选择一种方法的问题。虽然样本内表现可能表明一种方法优于其他方法,但它可能仍然与抽样误差或样本样本的过度匹配有关,因此在样本外数据上表现不佳。这突出了使用聚合的价值,而不是选择单一的方法,不管如何。我们再次在递归练习中用所谓的“未知事件”进行实验。附录中的表A.4显示了在递归练习中删除未知事件时,与表8中的单个方法类似的结果。综合数据显示,平均URC从77%下降到67%,而AUC的平均值相似。同样,即使使用更严格的测试,也无法观察到过度匹配。如表8所示,在大多数情况下,其他聚合方法的性能并不比简单算术平均值的结果好。这可能与以下事实有关:模型多样性已被证明可以改善总体水平的性能(例如,昆切瓦和惠特克[58])。例如,更多的随机方法(例如,随机森林)已被证明比更深思熟虑的技术(例如,Ho[42])产生更强大的聚合,在这种情况下,聚合模型不仅使用重采样的观测值,还使用重采样的变量。由于我们的聚合更好的方法可能会给出类似的模型输出,它们可能会导致聚合中的多样性程度降低,但也值得注意的是,我们接近完美的性能,在这一阶段,性能改进显然变得更具挑战性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:27
集成学习的进一步方法应该是未来工作的主题,因为通过各种方法,如变量和观测重采样,可以很容易地将更多的多样性引入不同的学习算法。表8:交叉验证和递归估计的汇总结果。秩法估计精度召回精度再校准准确率FN rateUa(μ)Ur(μ)AUC5非加权交叉val.92 41 1018 1 0.69 0.99 1.00 0.96 0.96 0.04 0.01 0.06 88%0.9965加权交叉val.86 32 1027 0.73 0.93 0.99 0.97 0.97 0.03 0.08 0.05 84%0.9923最佳交叉val.89 15 1044 0.86 0.96 1.00 0.99 0.99 0.98 0.01 0.06%0.06%交叉投票10-89 0.890.99 0.99 0.98 0.01 0.11 0.06 87%0.9422非加权递推80 10 2411 0.89 0.88 0.96 0.96 0.94 0.04 0.12 0.12 79%0.9611加权递推84 31 220 7 0.73 0.92 0.97 0.88 0.89 0.12 0.08 0.11 77%0.9451最佳递推80 5 246 11 0.94 0.88 0.96 0.98 0.95 0.02 0.12 0.12 81%0.9275投票递推77 10 241 14 0.89 0.85 0.95 0.90.90%0.90 0.90.90.90.90%0.90表报告了给定最佳阈值的集合的交叉验证和递归样本外性能,偏好为0.8,预测范围为5-12个季度。第一列对应其相对于个别方法的排名(表4和表5)。该表还在列中报告了评估模型总体性能的以下指标:TP=真阳性,FP=假阳性,TN=真阴性,FN=假阴性,精确阳性=TP/(TP+FP),召回阳性=TP/(TP+FN),精确阴性=TN/(TN+FN),召回阴性=TN/(TN+FP),准确度=(TP+TN)/(TP+TN+FP+FN),绝对和相对有效性Ua和Ur(见公式1-3),AUC=ROC曲线下的面积(TP率与FP率)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:31
有关这些措施的更多详细信息,请参见第2.2节。TPFPTNFN4呈阳性。4.模型不确定性我们实证分析的最后一步涉及计算模型不确定性,尤其是与模型性能和输出相关的不确定性。模型性能不确定性。人们可能会质疑上述赛马是由于非确定性方法中的抽样误差和随机性而产生的潜在偏差的结果。这一点我们应该进行统计学测试,以确保任何等级推断都是有效的。因此,我们进行了与表6、7和8类似的练习,但重新取样以考虑模型的不确定性。对于交叉验证练习,我们抽取了10倍的500个样本,并报告了平均结果,包括三个关键性能指标的SEs。因此,表9给出了交叉验证估计的稳健赛马。我们可以观察到,KNN、SVM、ANN和ELM仍然是性能最好的方法。其次是聚合,然后采用与表6相同的方法(性能降序):随机森林、QDA、分类树、logit、LASSO、LDA和信号提取。除了有类似的结果,在续集中将事件分配给参考季度的一个关键论点是,由于时间序列较短,我们需要使用一个更晚的递归开始日期。除了简单的排名外,我们还使用有用性来评估所有其他方法的统计意义。所有方法的交叉比较矩阵见附录中的表A.5。表9中的第二列通过显示第一个较低等级的方法总结了结果,该方法在统计上与每种方法有显著差异。这表明modelperformance在同类最佳和最差的方法中都有集群。结果表明,在排名第6位之前的所有方法都优于排名第8位的非加权总体。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:35
同样,排名11以上的所有方法似乎都属于一个表现类似的群体。排名在第11位以下的方法在性能上存在较大的双边差异,尤其是信号提取,这比所有其他方法都要差得多。还值得注意的是,真正的集成方法(即聚合,不包括最佳方法)减少了模型性能的变化,这是因为模型平均降低了极端结果的影响。这显然是在为决策制定稳健的早期预警模型时需要考虑的关键问题。作为进一步的稳健性检查,我们还提供了附录图a.2中所有方法和集合的交叉验证样本外ROC曲线图。然而,我们更愿意关注基于有用性的排名,因为它们关注AUC的相关点(u=0.8),而不是涵盖决策者的所有潜在偏好。表9:交叉验证估计的稳健赛马。RankMethod精密度召回精密度再校准准确率FN比率UA(μ)S.E.Ur(μ)S.E。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:39
政府部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门部门0.023 0.991 0.0055 8加权89 30 10290.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0 0.0 0 0.0 0 0.0 0 0 0.0 0 0 0.0 0 0.0 0 0.0 0 0 0.0 0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0 0.0 0 0 0 0.0 0 0 0 0.0 0 0 0 0.0 0.0 0 0 0.0.0 0 0 0.0 0 0 0 0.0 0 0 0 0 0 0.0 0.15 0.0 0 0 0 0 0 0 0.0 0 0 0 0 0.15 0 0 0 0 0 0 0.15 0.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.15 0 0 0 0 0 0 0 0 0 0 0.0.0 0 0 0 0 0 0 0 0 0 0.15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 81201039120.810.880.99 0.98 0.97 0.02 0.13 0.05 0.003 82%0.042 0.996 0.00110 11 QDA 78 18 1041 15 0.82 0.84 0.99 0.98 0.97 0.02 0.16 0.05 0.002 79%0.024 0.984 0.00111 13分类。10.0 0.0 0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0 0.0.0.0.0 0.0.0 0.0.0 0.0.0 0.0.0 0.0 0.0.0.0 0 0.0 0.0.0 0.0 0.0.0 0 0.0 0.0.0.0 0 0 0 0 0 0 0.0 0 0 0 0.0.0 0 0.0 0.0 0 0 0.0.0.0 0 0.0.0.0 0 0 0.9 0 0 0 0 0 0 0 0.9 0 0.0.017 0.934 0.00115 16 LDA 74 120939 19 0.38 0.80 0.98 0.89 0.88 0.11 0.20 0.03 0.001 48%0.022 0.927 0.00216-信号提取。15 46 1013 78 0.25 0.16 0.93 0.96 0.89 0.04 0.84 0.00 0.001 4%0.014 0.712 0.000负面注释:该表报告了所有方法在500次重复交叉验证中的样本外性能,最佳阈值为0.8,预测范围为5-12个季度。该表根据相对有用性对方法进行排序,第二列提供了不同方法之间的显著差异。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:42
该表还在列中报告了评估模型总体性能的以下指标:TP=真阳性,FP=假阳性,TN=真阴性,FN=假阴性,精确阳性=TP/(TP+FP),召回阳性=TP/(TP+FN),精确阴性=TN/(TN+FN),召回阴性=TN/(TN+FP),准确度=(TP+TN)/(TP+TN+FP+FN),绝对和相对有用性Ua和Ur(见公式1-3),AUC=ROC曲线下的面积(TP率到FP率),以及S.E.=标准误差。有关这些措施的更多详细信息,请参见第2.2节。Sig>RANKTPTNFPOSITIVESTO再次执行更严格的递归实时评估,但作为一项强有力的练习,我们将递归赛马与双重重采样相结合。在表10中,我们为每个季度抽取500个样本内数据的引导样本,并再次报告样本外结果的平均值,包括其SE。与表7中单一估计的结果相比,排名显示出轻微的差异。虽然大多数机器学习方法仍优于更传统的方法,但总体上差异较小。特别是,在各种方法中,人工神经网络表现出最好的实用性,而对应的支持向量机的性能比单一估计差。最值得注意的是,罗吉特套索和分类树显示排名正增长。同样,根据附录表A.6中交叉比较矩阵的统计意义,我们在表10的第二列中报告了显著差异。与交叉验证相比,双自举引入的样本数据变化对性能变化有显著影响,而Henceal对等级差异也有显著影响。表10中排名前三位的方法是聚合方法,仅这些方法在统计上明显优于信号提取以外的任何其他方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:46
Nextis是一大类中间方法,其中信号提取是同类方法中最差的。此外,我们还提供了所有方法的递归样本外ROC曲线图,以及附录图A.3中的汇总。与此相一致,由于没有单一的性能度量,我们还根据两个练习中的方法的AUC对其进行排序,计算它们在练习中的变化,并进行均衡测试。对于交叉验证和递归练习,这些表格显示的结果与基于有用性的排名一致,如附录A.7和A.8所示。对于交叉验证评估,一个关键的区别是,AUC排名显示随机森林和最佳和非加权集合的相对性能更好,而KNN和QDA在递归练习中改善了它们的排列。一个实时的赛马估计表。英语常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用常用1.0424 160.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0.0 0.0 0.895 0.0 0.0 0.36 0.0 0.0.863 0.3 3 3 3 0.0.3 3 3 3.0.0.0.0.0.0.3 3 3 3 3 0.0.0.0.0.3 3 3 3 3 3 3 0.0.863 3 0.0.0.0.0.3 3 3 3 3 3 0.0.0.0.0.5 5 5 5 5 5 5 5 5 5 5 5 5.5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 KNN香港香港香港香港政府的政府工作工作人员有5454549 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 24242424242424242424249 9 9 9 9 9 9 9 9 9 9 9 9 9 9 0.042 0.01 29%0.1 0.740 0.0348 16罗吉特套索68 100 151 23 0.408 0.75 0.869 0.603 0.642 0.397 0.252 0.04 0.02 24%0.13 0.764 0.0599 16分类。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 08:51:50
0.0 0 0.0 0 0.0 0 0 0.0 0 0 0.0 0 0.0 0 0.0 0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0.0 0 0.0 0 0 0.0 0 0 0.0 0 0 0.0 0 0.0 0 0 0.0 0 0 0 0.0 0 0 0.0 0 0 0 0 0 0 0.0 0 0 0 0 0.0 0.0 0 0.0 0.0 0 0 0.0 0 0.0 0 0 0 0 0.0 0 0.0 0 0 0.0 0 0 0.0 0 0.0 0 0 0.0 0 0 0 0.0 0 0 0 0 0 0.0.0 0 0 0 0 0 0 0.839 0.0 0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0.0.0 0 0 0 0 0 0.0 0 0.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0.02 0.02 14%0.14 0.724 0.04313 16 SVM 5060 191 41 0.471 0.55 0.825 0.762 0.707 0.238 0.446 0.02 0.03 12%0.18 0.725 0.08214 16 LDA 55 80 171 36 0.406 0.6 0.825 0.681 0.659 0.319 0.4010.02 0.02 10%0.14 0.757 0.04215 16朴素贝叶斯39 33 218 52 0.542 0.43。31 85 166 60 0.266 0.34 0.733 0.662 0.575 0.338 0.665-0.04 0.02-30%0.1 0.609 0.028负面注释:该表报告了所有方法的递归样本外性能,其中500个递归生成的引导,在给定偏好为0.8且预测范围为5-12个季度的情况下,具有最佳阈值。该表根据相对有用性对方法进行排序,第二列提供了不同方法之间的显著差异。该表还在列中报告了评估模型总体性能的以下指标:TP=真阳性,FP=假阳性,TN=真阴性,FN=假阴性,精确阳性=TP/(TP+FP),召回阳性=TP/(TP+FN),精确阴性=TN/(TN+FN),召回阴性=TN/(TN+FP),准确度=(TP+TN)/(TP+TN+FP+FN),绝对和相对有用性Ua和Ur(见公式1-3),AUC=ROC曲线下的面积(TP率到FP率),以及S.E.=标准误差。有关这些措施的更多详细信息,请参见第2.2节。Sig>RANKTPTNFPISTIVES模型输出不确定性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群