全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-6-6 21:30:42
如原论文所述,作者提出的遗传算法方法的分类准确率为94%。他们还将其与其他两种数据挖掘技术,即归纳学习和神经网络进行了比较,报告的准确率分别为89.7%和90.3%。相比之下,第二个数据集(表示为数据集2)包含2000-2012年间波兰制造公司64个数量属性的5910个实例,2007-2013年间对一些仍在运营的公司进行了评估(Zieba、Tomczakb和Tomczaka,2016)。其中5500家公司没有宣布破产,其余410家公司在一年后申请破产。大多数数量属性是财务比率和计量经济指标,如大多数现有文献所示。这些属性的完整列表见附录2。分析这两个数据集的方法相似,将在下文中解释。请注意,数据集1和数据集2之间结果质量的差异可归因于不同的地理位置、不同的数据集大小、不同的特征和不同的数据质量等因素。4.1预处理各种输入特征的可能值范围可能会发生很大变化。例如,由于正常化,等式9定义的毛利率将始终小于1(即低于100%),而一些财务指标(如营运资本)理论上可以具有任何实际价值(即负无穷大到正无穷大)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:30:45
为了使情况进一步复杂化,一些学者建议在预测模型中加入其他特征,如公司治理结构和管理实践(Aziz&Dar,2006),该模型可以具有任意规模。尺度在不同维度上的巨大差异导致了机器学习中的几个问题,例如使用机器学习22 Jacky C.K.Chow-2018年2月对金融信用风险的分析,将其视为数值不稳定和饱和的更高可能性(即某些特征因其规模而占主导地位并掩盖其他一些特征的重要性的情况)。   一种可能的解决方案是对每个特征进行标准化,使所有特征都具有零均值和单位方差。为了实现这一点,可以简单地从每个训练样本中减去平均值,然后除以其标准偏差(方程式10);然而,如果特定特征的方差非常小(即接近于零),那么这种划分可能会有数值问题。另一种方法是简单地将数据缩放到最小值之间() 和最大值() 选择值:例如,0和1(方程式11)。xiixxz公司     DesiredDesiredDixxxZ MinMinMaxMinMaxMinMaxMin4.2由于分类边界和训练数据可以可视化,因此仅具有一个、两个甚至三维特征的降维分类通常是直观的。不幸的是,财务困境信息存在于更高维的特征空间中。换言之,仅分析三个财务比率不足以明确区分成功的公司和未来可能破产的公司。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:30:48
在高维特征空间中,如64维波兰破产数据集,人类很难“看到”第4章:方法论Jacky C.K.Chow-2018年2月23日发生的事情。然而,存在许多数学工具来降低数据的维数;这不仅可以潜在地提供感知高维数据的方法,还可以降低问题的复杂性,并可以减少数据中的一些噪声。一种常用的线性降维方法是主成分分析(PCA)。它执行变换/投影,通过减少特征之间的相关性来最大化沿每个正交轴的方差(相当于最小化信息损失)(Hotelling,1933)。这是有意义的,因为尽管许多机器学习问题的维数很高,但有趣的特征通常存在于低维流形中。例如,研究人员建议在现有财务比率的基础上增加宏观经济指标,以预测财务困境。由于公司的经营不可避免地受到宏观环境的影响,其影响的一部分已经反映在公司的财务业绩上;因此,当包含宏观经济特征时,它们提供的信息并非完全独立于其他特征。另一个例子是一些财务比率的相似性。仔细检查波兰破产特征后,可以发现特征4(即流动资产除以流动负债)和特征55(即流动资产减去流动负债)等一些比率密切相关。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:30:51
一种简单的降维方案是手动消除一些描述性较差的特征,但这可能会变得单调、主观,并导致“全有或全无”的情况(有时相关特征仍然可以提高分类器的识别能力)。PCA以这样一种方式组合特征,即低维表示仍然保留大部分信息。主成分分析的一个明显缺点是,可能会丢失对特征空间的清晰财务解释;PCA后的每个新特征都是许多特征(如财务比率)的线性投影。从数学上讲,PCA解可以通过不同的方式获得,其中之一是通过特征分解。特征值的大小可以用作信息内容的指示。如果特征值按降序排序,则通常会在前几个特征向量的方向上捕获大部分信息。使用机器学习24 Jacky C.K.Chow(2018年2月)对金融信贷风险进行的最后一次分析的特征值将接近于零,消除这些最后几个预测特征只会导致少量信息损失。PCA是一种无监督的降维方法。然而,如果训练数据包含标签,则在将数据投影到低维子空间时包含该信息可能是有利的。毕竟,除了通过在低维子空间中工作来降低以下机器学习算法的复杂性之外,这种投影的目标之一应该是最大化不同类之间的分离。实现这一点的方法之一是线性判别分析(LDA)。需要类别标签,因此LDA可以被视为PCA的监督版本。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:30:55
PCA和LDA都执行线性投影。当投影为非线性时,我们可以沿流形估计测地距离并应用多维缩放。这种方法称为等轴测特征映射(ISOMAP)。ISOMAP是一种无监督的降维方法,可以处理非线性,但需要付出更多的计算努力。另一种方法是将支持向量机中采用的“核技巧”应用到主成分分析中;这就产生了一种称为核PCA的方法。如果选择非线性核(例如径向基核),则投影将是非线性的。4.3从数据学习和模型选择不同的机器学习算法使用提供的数据构建真实世界模型的方法不同。例如,K-D树通过对数据进行分区并形成用于快速查询的二叉树结构来学习数据,而逻辑回归则通过在某个似然函数最大化的优化框架中估计某些权重参数来学习。通常,从数据中学习可以是参数的,也可以是非参数的。参数化方法将学习模型的一些未知参数,并忘记数据(如逻辑回归),而非参数方法(如GP)将必须存储所有训练数据。但即使该方法是非参数的,仍有一些可选的调整第4章:方法Jacky C.K.Chow-2018年2月25日,以获得最佳性能。提出的大多数机器学习方法都有一些超参数,用于改变模型的行为。例如,在具有径向基函数核的GP分类器中,需要设置长度。此参数控制形成决策边界时的邻域大小。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:30:58
一般来说,有三种选择“最佳”模型的方法:(1)由专家手动调整,(2)交叉验证(CV)和(3)贝叶斯统计。在第一种情况下,机器学习或计量经济学专家将更改超参数,重新训练模型,并分析结果,直到获得满意的解决方案。这可能是耗时且主观的。自动方法是使用验证数据集或k-fold方案进行交叉验证。除非有大量的数据集,否则进行k-fold交叉验证通常是更好的选择,因为用于培训的相同数据可以用于模型选择。在k-fold交叉验证中,将训练数据集随机聚类为“k”组。第一组用作验证数据集,其余所有数据用于培训。然后将第2组作为验证数据集重复此过程,并将所有其他数据用于培训。当所有“K”组都有机会扮演验证数据集的角色时,K-fold交叉验证终止。此时,可以使用得分最高的模型或所有k倍的平均值来选择最佳模型。例如,此策略可用于调整SVM中边距的柔软度,即可使用交叉验证设置“C”超参数。图7显示了各种“C”选项的交叉验证分数。对于该数据集,硬边距似乎提供了更高的平均分数,最高CV分数约为C值12。使用机器学习分析金融信贷风险26 Jacky C.K.Chow-2018年2月图7:使用交叉验证分数调整SVM的正则化参数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:01
实线表示10倍交叉验证的平均值,虚线表示标准偏差。如果机器学习模型是类似高斯混合模型的概率模型,则可以分配先验分布来寻找最优超参数。这类似于设置最佳模型复杂性以防止过度拟合的正则化器。这种方法的好处之一是模型选择和培训可以同时进行。在数值优化过程中,每次迭代都会更新超参数以改善后验分布。然而,并非所有的机器学习方法都是概率的,如支持向量机和K-D树。因此,为了有一个统一的模型调整框架,在比较不同的模型时将使用交叉验证。4.4准确性评估第2.2节中描述的机器学习模型可能具有非常不同的特征和行为,因此很难判断哪个模型表现更好。因此,一套一致的工具对于评估任何机器学习模型的性能都很重要。机器学习中一些最流行的质量控制措施定义如下。最流行的质量评估方法是准确度评分:给定一个具有基本真相类/标签的样本,将训练模型中的预测标签与第4章:方法论Jacky C.K.Chow-2018年2月27参考标签进行比较(方程式12)。必须小心确保在机器学习管道的任何预处理或培训阶段都不会暴露此测试数据集。此外,测试集应具有与训练集相同的概率分布。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:04
这可以通过从原始数据集中随机选择一部分点来实现(例如,70%用于培训,30%用于测试)。这个单一的标量值表明,机器学习算法可以将处于无法恢复的金融危机中的公司标记为破产公司,将财务状况良好的公司标记为未破产公司。   哪里    和   除了准确度得分外,机器学习中用于质量控制的另一组指标是精度、召回率和F1得分。精度是衡量算法能够找到真正正的程度(等式13)。在本论文中,可以将其转化为该模型在实际破产时预测一家公司破产的程度。例如,100%的精确度意味着被标记为破产的公司在未来肯定会经历破产。与精确度密切相关的另一个概念是回忆,定义见等式14。召回率是衡量分类器识别所有真阳性样本的可靠性的一个指标。例如,50%的召回率表明,一半的破产候选公司已被发现,而另一半面临破产的公司则被分类器遗漏。理想情况下,一个好的分类器应该最大限度地提高精度和召回率,不幸的是,在现实中,精度和召回率往往是计量经济学专家在训练模型时必须做出的权衡。如图8所示,随着查全率的增加(x轴),查准率降低(y轴),反之亦然。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:07
如果预测的目的是突出所有容易破产的公司,以供财务官进行进一步筛选,则需要以较低的精确度为代价进行高召回,因为财务官可以手动消除误报。然而,如果目标是自动拒绝所有濒临破产的公司的贷款申请,以避免浪费银行的资源进行更彻底的面谈和评估,那么高精度(较低的召回率)可能更合适。F1使用机器学习分析金融信贷风险28 Jacky C.K.Chow-2018年2月的分数定义为精确度和召回率的加权调和平均值。这是一个单独的数字,可以进一步帮助模型比较的决策过程。一个完美的模型的F1得分为100%,这相当于100%的精确度和100%的召回率。因此,一般来说,F1成绩较高是首选。             图8:精度和再校准之间的反比关系显示和选择精度和召回之间权衡的另一种方法是分析接收器工作特性(ROC)曲线(图9)。根据给定边界曲线选择的阈值,可以控制真阳性率和假阳性率。然而,由于它们是相关的,低阈值第4章:方法学Jacky C.K.Chow-2018年2月29日的值不仅可以确保高阳性率,还可以提供高假阳性率。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:10
因此,最佳阈值通常位于曲线的左上角,其中真阳性率远高于假阳性率。为了使用这种方法比较不同的模型,可以计算ROC曲线下的面积。区域越接近1,分类器的判别能力越好。图9:以实线显示的分类器ROC曲线和以虚线显示的随机猜测真阳性、假阳性、假阴性和真阴性之间的关系也可以在一个简单的混淆矩阵中进行更全面的总结(图10)。这以一种易于可视化的方式给出了二元分类问题中四种情况的概率。在该图中,真阳性率为96.6%,假阳性率为3.4%,假阴性率为4.8%,真阴性率为95.2%。使用机器学习分析金融信贷风险30 Jacky C.K.Chow-2018年2月图10:在0和1之间归一化的二元分类器的混淆矩阵第5章:结果和分析Jacky C.K.Chow-2018年2月31 5数据集1和数据集2的结果和分析,已采取适当的预处理步骤,以确保所有特征都在负特征和正特征之间缩放。为了获得用于评估各种分类模型准确性的地面真实数据,将数据集分为80%的训练和20%的测试。除最终精度评估阶段外,20%的测试数据从未用于任何机器学习步骤。使用这种方法,可以减少在选择模型参数时过度拟合和引入个人偏差的可能性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:13
5.1数据集1:韩国企业破产5.1.1数据可视化人类的视觉皮层无法理解六维空间,因此为了能够直观地识别数据中的模式,需要将特征投影到低维子空间;最直观的子空间是二维(图11)和三维(图12)。注意,标记为破产的数据用橙色表示,非破产数据用紫色表示。可以看出,所有四种降维技术都能够很好地分离两个簇。特别是,使用PCA、LDA和核PCA的后投影数据是线性可分离的。虽然从ISOMAP结果可以看出破产样本和非破产样本之间有一个清晰的边界,但分离边界是非线性的。基于视觉评估,无法感知使用机器学习32 Jacky C.K.Chow-2018年2月特征而非两个特征对金融信贷风险进行三重分析的显著好处。因此,将选择二维子空间,以简化分类结果并使其更好地可视化。为了更好地理解不同降维方法的影响,将对四个二维数据集应用不同的分类器。图11:韩国破产数据的二维可视化第5章:结果和分析JackyC.K。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:16
Chow-2018年2月33日图12:韩国破产数据集的三维可视化5.1.2二元分类图13、14、15和16分别说明了使用PCA、LDA、ISOMAP和核PCA预测训练和测试数据集上的不同机器学习模型计算的决策边界。在这些图的最后一列中,还提供了相应的混淆矩阵,以显示其分类精度以及I型和II型错误。在线性可分子空间(即图13、14和16)中,逻辑回归、决策树和AdaBoost都能够学习简单的线性边界。在这种情况下,从决策树桩构建的AdaBoost(如第2.2.5节所述)给出了与决策树分类器相同的结果。来自K-D树的不规则决策边界和来自SVM、ANN、GP的曲线边界提供了相似的分类精度,但可以认为,在这种情况下,它比必要的更复杂。在ISOMAP投影场景中(图15),数据在二维空间中不是线性可分离的,非线性分类器的性能优于逻辑回归。在这种情况下,决策树和AdaBoost能够自动学习线性决策边界不足的事实,并使用不同的非线性边界将这两类分开。使用机器学习分析金融信用风险34 Jacky C.K.Chow-2018年2月第5章:结果和分析Jacky C.K.Chow-2018年2月35图13:PCA转换特征上不同类别的决策边界和混淆矩阵使用机器学习分析金融信用风险36 Jacky C.K。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:19
Chow-2018年2月图14:LDA转换特征上不同类别的决策边界和混淆矩阵第5部分:结果和分析Jacky C.K.Chow-2018年2月37使用机器学习分析金融信贷风险38 Jacky C.K.Chow-2018年2月图15:ISOMAP转换上不同类别的决策边界和混淆矩阵特征Schapter 5:结果和分析Jacky C.K.Chow-2018年2月39图16:核PCA转换特征上不同类别的决策边界和混淆矩阵研究上述混淆矩阵表明,II型错误(即公司可能经历破产,但由于“健康”而未能被检测到)比I类错误(即标记为破产的公司,而事实上并非如此)。从银行或其他贷款官员的角度来看,这是不利的。与放弃贷款利率相比,向最终破产的公司贷款可能会耗费银行更多的资本。上面测试的大多数分类器最擅长的是预测一家公司不会破产,而事实上他们的财务状况是稳定的。表1总结了使用不同降维机制的各种二元分类方法的分类准确度、精确度、召回率和F1分数。由于原始输入特征是离散的(即使用机器学习40 Jacky C.K.Chow进行的金融信贷风险定性度量分析-2018年2月转换为数值),不同场景的计算质量度量是量化的,可以按颜色分组。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:23
绿色表示该质量度量中的最佳性能,黄色表示平均性能,红色表示相对性能最差。无论采用何种降维方法和分类模型,所有案例的结果都是相似的。这表明,结果对所使用的确切模型不太敏感。根据表1,LDA是该数据集的首选降维方法,因为这两个类之间的距离足够大,所有分类模型,无论是线性还是非线性,都表现得相当好,提供了一组一致的结果。使用LDA,最好使用最简单的线性分隔符,即逻辑回归。在该数据集中,总体分类误差达到2.0%。精度100%;重申一个事实,即如果一家公司被确定为破产候选公司,它们几乎肯定会破产。虽然95.2%的召回率表明,约有5%的公司在遇到财务困境时会通过雷达监视,而仅依靠该系统进行决策的贷款人员会在大约5%的时间内出错,这对于银行或金融机构来说通常仍然太高。表1:韩国破产数据集上各种机器学习方法与不同降维技术相结合时的质量控制准确度决策再调用F1得分逻辑回归98.0%100.0%95.2%97.6%K-D树98.0%100.0%95.2%97.6%SVM98.0%100.0%95.2%95.6%DecisionTree96.0%100.0%90.5%95.0%AdaBoost96.0%100.0%90.5%95.0%ANN98.0%100.0%95.2%97.6%GP98.0%100.0%95.2%97.6%LDALogistic98.0%100.0%95.2%97.6%5章:结果与分析Jacky C.K。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:26
周-2018年2月41回归K-D树98.0%100.0%95.2%97.6%SVM98.0%100.0%95.2%97.6%Decision树98.0%100.0%95.2%97.6%AdaBoost98.0%100.0%95.2%97.6%ANN98.0%100.0%95.2%97.6%GP98.0%100.0%95.2%97.6%ISOMAPLogistic回归96.0%95.2%95.2%95.2%K-D树98.0%100.0%95.2%97.6%SVM98.0%100.0%95.2%97.6%决策Tree98.0%100.0%95.2%97.6%AdaBoost98.0%100.0%95.2%97.6%ANN96.0%95.2%95.2%GP98.0%100.0%95.2%97.6%Kernel PCALogistic回归96.0%100.0%90.5%95.0%K-D Tree98.0%100.0%95.2%97.6%SVM98.0%100.0%95.2%97.6%Decision Tree96.0%100.0%90.5%95.0%AdaBoost96.0%100.0%90.5%95.0%ANN96.0%100.0%90.5%95.0%GP98.0%100.0%95.2%97.6%使用机器学习分析金融信用风险42 Jacky C.K.Chow-2018年2月不同的分类器有不同的优势。为了进一步分析韩国市场的破产情况,我们使用了决策树模型。如第2.2.4节所述,使用决策树的好处之一是它在追溯决策过程时提供的透明度。以ISOMAP投影的2D特征为例,训练完成后,可以可视化决策树,如图17所示。从顶部的第一个节点开始,使用200个样本和0.49的基尼指数,如果投影特征的第二个分量小于-0.33,则遍历到左分支,否则遍历到右分支。该过程重复进行,直到某个节点的基尼指数为零,其中每个节点将被分类为破产或未破产。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:29
可以想象,通常特征越多,决策边界越复杂,树结构就越大,因此人类分析师就越难解释结果。图17:二维空间中ISOMAP变换特征的训练决策树虽然使用降维通常可以降低问题的复杂性,但由于第5章:结果和分析Jacky C.K.Chow-2018年2月43日的投影,特征空间的物理意义也部分丢失,例如,第一部分和第二部分对财务专家没有太大意义。一种可能的解决方案是研究投影函数,并将树结构与最初测量的特征间接联系起来。例如,当使用PCA时,可以从特征向量中提取有助于投影的每个特征的权重。对于这个特定的韩国数据集,表2中给出了第一个和第二个分量的权重。可以看出,第一部分主要由公司的财务灵活性、信誉和竞争力决定,第二部分主要表示公司的行业风险、管理风险和运营风险。表2:预计二维主成分的原始六维定性特征权重工业风险管理风险财务灵活性信贷竞争力运营风险第一成分0.2310.3200.4660.4720.5850.250第二成分-0.582-0.3070.2680.2840.214-0.607或者,决策树分类器可应用于原始六维数据集,以直接了解每个定性指标与公司发生财务困境的可能性之间的关系(图18)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:31
在这种特定情况下,生成的树结构相对简单(它比图17中的树更深,但宽度更小)。从图18可以看出,六个定性指标中只有四个对这个特定的培训集重要。更具体地说,它们的重要性顺序是竞争力、信誉、财务灵活性和行业风险。详细浏览这棵决策树,可以对这200家韩国制造和服务公司说以下几点:1。公司的竞争力对破产的影响最大。如果该公司的竞争得分为负值,则无论其在其他属性上的得分如何,该公司都可能破产。2、如果该公司具有一般或较高的竞争水平和良好的信誉,则该公司不太可能面临破产。使用机器学习分析金融信贷风险44 Jacky C.K.Chow-2018年2月3日。但如果这家有竞争力的公司信誉不佳,那么它最好在财务上灵活一些,或者在行业风险较低的行业中生存。图18:原始特征的训练决策树与原始作者的结果相比(Kim&Han,2003),本文提出的解决方案显示出更好的分类精度。Kim和Han(2003)报告,他们的遗传算法、归纳学习和神经网络的总体二元分类准确率分别为94.0%、89.7%和90.3%。在本文中,使用各种分类模型可以获得更好的分类精度(即98%)。这一改进可归因于较小的样本量(参考原始论文)和使用降维技术。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:35
在Kim和Han(2003)的文章中,他们的所有数据挖掘技术都应用于原始特征空间,如本文所示,原始特征空间包含用于破产预测的噪声和无关信息。因此,消除数据集中信息量较小的一些维度以降低问题的复杂性是合理的。第5章:结果与分析Jacky C.K.Chow-2018年2月45 5.2数据集2:波兰企业破产5.2.1数据可视化,采用与5.1.1相同的方法,首先将定量财务因素缩放至-1.0和+1.0之间。与数据集1不同,数据集2是不完整的,因为某些公司缺少属性。与其简单地从数据集中完全删除这些条目,不如将其缺失的值作为中位数从其余公司中估算出来。这样,样本数量保持不变,插补特征对决策边界的影响很小(Jereza等人,2010)。此外,标记为“未破产”的数据显著增多(该数据库中未破产公司与破产公司的比率为13:1)。这种类别不平衡会对某些分类算法产生重大影响。因此,标记为“破产”的特征使用合成少数过度采样技术进行上采样(Chawla、Bowyer、Hall和Kegelmeyer,2002)。具有定量财务指标的数据集2比数据集1更复杂,使用相同的降维方法将特征映射到三维空间,结果表明破产公司和非破产公司在低维空间中非常相似(图19)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:38
因此,不可能对分类边界进行目视评估,评估必须基于其他数值技术。使用机器学习对金融信贷风险进行分析46 Jacky C.K.Chow-2018年2月图19:波兰破产数据集的三维可视化为了选择适当数量的组件而不可视化点分布,PCA组件可以按信息内容的降序绘制,如图20所示。从视觉上看,50%的方差可以通过前几部分进行汇总。主成分31至64加在一起仅占数据方差的1%,并被假定为高度受噪声污染。因此,各种分类算法仅适用于30个最大的主成分,这些主成分应捕获99%的信息,同时将问题的维数减少一半以上。图20:主成分的累积方差百分比第5部分:结果与分析Jacky C.K.Chow-2018年2月47 5.2.2二元分类使用10倍交叉验证对训练数据调整所有超参数(例如,对于K-D树,在这种情况下,发现最佳邻域大小为6)。这允许使用数据本身以客观的方式选择“最佳”模型。图21显示了训练数据的10倍ROC曲线和测试数据的混淆矩阵。在各个褶皱之间,ANN和GP的ROC曲线差异最大。K-D树和决策树的ROC曲线形状最为理想。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:41
尽管他们的ROC曲线看起来很相似,但他们的混淆矩阵却截然不同;K-D树能够检测出破产公司,准确率为57.0%,而经过训练的决策树准确率仅为11.6%。逻辑回归K-D树VManalysis of Financial Credit Risk Using Machine Learning 48 Jacky C.K.Chow-2018年2月决策树EADABOSTANGP图21:在波兰破产数据集上应用不同机器学习方法的ROC曲线和混淆矩阵不同机器学习模型的质量控制措施总结在表3中。除了准确度、精密度、召回率和F1得分外,还报告了ROC曲线下的平均面积(AUC),以便与Zieba等人(2016)的原始文章的结果进行比较。Zieba等人(2016)也测试了一些分类器,如logistic回归和SVM,总体而言,本文获得的平均AUC具有可比性。例如,本文报告的logistic回归AUC为79.9%,而原始文章中的AUC为63.2%。考虑到分类器与第5章:结果和分析Jacky C.K.Chow-2018年2月49相同,性能的改善可能归因于数据缩放、降维和模型选择步骤。本论文中的AUC分数不仅与原始文章相似,最高AUC为96.9%,超过了Zieba等人(2016)报告的所有方法。但应该注意的是,仅AUC不足以描述分类器的实际性能。表3中的许多分类器具有较高的AUC(即大于90%),但它们的准确度、精密度、召回率和F1分数可能存在显著差异。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:44
例如,AdaBoost的AUC比ANN高(91.8%,81.0%),但ANN表现出更好的准确性、精确性、召回率和F1得分。当将所有质量度量一起分析时,可以看出非线性分类器往往具有不太一致的度量。例如,SVM报告了良好的AUC和准确度(分别为84.3%和92.6%),但准确度、召回率和F1分数实际上为零,因为分类器预测的所有数据都属于混淆矩阵所示的非破产类别。这可能是由于高维问题的训练数据有限,导致这些高阶非线性分类器过度拟合,从而导致维数灾难。通常,随着特征数量(即维度)的增加,数据数量需要呈指数增长才能保持相同的密度(Verleysen&Francois,2005)。虽然通过降维,与原始论文相比,特征的数量显著减少,但30维空间的5000个数据点仍然相当少。在分析其他质量控制因素后,似乎由于数据量有限和特征数量众多,与更复杂的机器学习算法相比,更简单的分类器,如K-D树和logistic回归(尽管在测试的分类器中AUC最低,但它具有更好的平均质量控制度量)实际上能够更好地概括新数据。在测试数据上,它们的性能具有可比性,逻辑回归的性能稍好,并且需要更少的存储来进行更快的预测。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:47
因此,它是该数据集的首选机器学习模型,因为它平衡良好。使用机器学习分析金融信贷风险50 Jacky C.K.Chow-2018年2月表3:波兰破产数据集上不同机器学习方法的质量控制准确性RecisionRecallF1 ScoreAUCLogistic回归66.4%70.4%59.4%64.4%79.9%K-D Tree62.9%66.1%57.0%61.2%96.9%SVM92.6%0.0%0.0%0.0%84.3%DecisionTree51.5%65.4%11.6%19.7%96.1%AdaBoost91.8%14.3%2.3%4.0%91.8%ANN92.4%38.5%5.7%10.0%81.0%GP92.6%0.00.00.082.1%第6章:结论和建议Jacky C.K.Chow-2018年2月51 6结论和建议商业智能是一个快速发展的领域,具有巨大潜力,可以提高全球企业的效率和竞争力地球数据挖掘和机器学习是该领域的有用工具,可以从大数据中提取有价值的信息,以帮助制定业务战略。本文研究了几种流行的现代机器学习算法在预测企业破产方面的应用。这些信息可以帮助政府、投资者、管理者和其他利益相关者做出明智的经济决策,以避免财务损失。对制造业公司的两个非常不同的数据集进行了分析,并与其他研究人员的结果进行了比较。第一个数据集使用六个定性指标来描述韩国公司的经营状况。第二个数据集使用64个定量财务特征来评估波兰公司破产的可能性。本文的结果表明,与数据集2相比,应用于数据集1的所有机器学习算法都具有更好的性能。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:50
这可以归因于这样一个事实,即这些来自专家建议的手工特征比财务比率更具表现力。尽管只向金融专家提出了关于每家公司的六个多项选择题,但收集到的数据显示,这两个类别之间的区别更为明显。实际上,决策树分类器只需要使用机器学习52 Jacky C.K.Chow-2018年2月的六个问题中的四个问题来分析金融信贷风险,以检测破产几率高的公司,准确率超过90%。这表明,在未来,可以提出、收集和存储的问题会更少。这些定性度量的信息性是有利的,因为即使在将数据投影到低维子空间进行可视化之后,仍然可以看到两个聚类之间的清晰分离,从而使优化、比较和分析分类方法更加直观。在数据集2中,即使有64个财务比率和一个数量级以上的数据,机器学习算法也很难将公司分类为即将破产或不具有稳健性的公司。然而,与使用大多数公司的资产负债表和损益表中现成的财务比率相比,收集专家意见的成本相当高。考虑到收集大量财务比率的成本通常低于获取专家意见的成本,建议收集更多的数据来训练分类器,以克服维数灾难和缺乏单个特征的表达能力。质量控制还应基于多个绩效指标,而不是依赖于单个分数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:53
如本文所示,当使用单个质量控制指标分析和比较机器学习技术时,结论很容易产生偏差。一般来说,机器学习是金融分析师进行预测和精确发现数据模式的强大工具箱。存在许多不同的模型和验证技术来帮助数据挖掘和决策。很难确定是否有任何机器学习技术优于其他技术。事实上,作为一名数据科学家和/或金融专家,收集不同方法的优点并将其结合起来以做出更好的业务判断可能更为有益。第7章:参考文献Jacky C.K.Chow-2018年2月53 7参考文献Alpaydin,E.(2010)。机器学习导论。第二版。美国剑桥:麻省理工学院出版社。Aziz,M.,&Dar,H.(2006)。预测企业破产:我们的立场?《公司治理》,6(1),18-33。Beaver,W.(1966年)。财务比率作为失败的预测因素。《会计研究杂志》,4,71-111。Bellovory,J.、Giacomino,D.、Akers,M.(2007)。破产预测研究述评:1930年至今。《金融教育杂志》,33,87-114。Berg,M.、Cheong,O.、Kreveld,M.、Overmars,M.(2008)。计算几何(第3版)。施普林格·维拉格(Springer Verlag Berlin Heidelberg)。Bishop,C.(2006年)。模式识别和机器学习。美国纽约:斯普林格。Chawla,N.、Bowyer,K.、Hall,L.、Kegelmeyer,W.(2002)。SMOTE:合成少数超采样技术。《人工智能研究杂志》,16321-357。Chen,H.、Chiang,R.,&Storey,V.(2012)。商业智能和分析:从大数据到大影响。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:56
MIS季刊:商业智能研究专刊,36(4),1165-1188。Chen,N.、Ribeiro,B.,&Chen,A.(2016)。金融信用风险评估:最近的回顾。《人工智能评论》,45(1),1-23。使用机器学习分析金融信贷风险54 Jacky C.K.Chow-2018年2月Columbus,L.(2016)。2016年,机器学习正在重新定义企业。美国纽约:福布斯。Davalos,S.,Gritta,R.,和Adrangi,B.(2007)。推导预测航空公司财务压力和破产的规则:遗传算法方法。《交通研究论坛杂志》,46(2),40-54。Davenport,T.,&Patil,D.(2012)。数据科学家:21世纪最性感的工作。美国沃特敦:哈佛商业评论:10月。de Andrés,J.、Landajo,M.、Lorca,P.(2012)。基于多范数分析的破产预测模型:会计比率的替代方案。基于知识的系统,30,67-77。Deakin,E.(1972)。商业失败预测因素的判别分析。《会计研究杂志》,10(1),167-179。Demyanyk,Y.,&Hasan,I.(2010)。金融危机与银行倒闭:预测方法综述。欧米茄,38315-324。du Jardin,P.(2009年)。破产预测模型:如何选择最相关的变量?《银行家、市场与投资者》,98,39-46。Ellis,D.(2008)。雷曼兄弟倒闭震惊全球市场。美国亚特兰大:有线新闻网(CNN)。F"orstner,W.,&Wrobel,B.(2016)。摄影测量计算机视觉。瑞士查姆:斯普林格国际出版社。Freund,Y.,&Schapire,R.(1997)。在线学习的决策论推广及其在boosting中的应用。《计算机与系统科学杂志》,55(1),119-139。Guzman,A.(1999年)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:31:59
国际破产:为普遍主义辩护。从伯克利法律奖学金库检索:http://scholarship.law.berkeley.edu/facpubs/1758Haldeman,R.、Altman,E.、Narayanan,P.(1977)。Zeta分析:识别公司破产风险的新模型。《银行与金融杂志》,1,29-35。霍特林,H.(1933年)。将统计变量组合成主成分的分析。《教育心理学杂志》,24417-441。第7章:参考文献Jacky C.K.Chow-2018年2月55 James Wilson,H.,Mulani,N.,&Alter,A.(2016)。销售人员进行了机器学习改造。美国剑桥:麻省理工学院斯隆管理评论。Jereza,J.、Molinab,I.、García-Laencinac,P.、Albad,E.、Ribellesd,N.、Martíne,M.、Francoa,L.(2010)。在实际乳腺癌问题中使用统计和机器学习方法进行缺失数据插补。《医学中的人工智能》,50(2),105–115。Kaski,S.、Sinkkonen,J.,&Peltonen,J.(2001)。在学习度量中使用自组织映射进行破产分析。IEEE神经网络学报,12(4),936-947。Kim,M.&Han,I.(2003)。利用遗传算法从定性破产数据中发现专家决策规则。《专家系统与应用》,25637-646。Li,M.,&Miu,P.(2010)。基于会计比率和市场信息动态加载的混合破产预测模型:二元分位数回归方法。《经验金融》,17818-833。马孔科,R.(2013年2月21日)。欧盟的跨境破产法。检索自欧洲议会:http://www.europarl.europa.eu/RegData/bibliotheque/briefing/2013/130476/LDM_BRI(2013)130476\\u REV1\\u EN。pdf Martin,D.(1977年)。银行破产预警。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:32:02
《银行与金融杂志》,7249-276。Meyer,P.,&Pifer,H.(1970)。银行倒闭预测。《金融杂志》,25(4),853-868。Murphy,K.(2012)。机器学习:概率视角。美国剑桥:麻省理工学院出版社。Newton,G.(2003)。企业破产:工具、策略和选择。美利坚合众国纽约:Wiley。Nocedal,J.,&Wright,S.(2006)。数值优化。第二版。美国纽约:斯普林格。Ohlson,J.(1980)。财务比率和破产概率预测。《会计研究杂志》,18(1),109-131。使用机器学习分析金融信贷风险56 Jacky C.K.Chow-2018年2月Pe~na,T.、Martínez,S.、Abudu,B.(2011)。破产预测:一些统计和机器学习技术的比较。《经济动力学计算方法》,13,109-131。Philosophov,L.、Batten,J.、Philosophov,V.(2007)。利用财务比率和长期债务到期时间表预测破产事件和时间范围。2005年全民教育莫斯科会议文件。Rasmussen,C.,&Williams,C.(2006)。机器学习的高斯过程。美国剑桥:麻省理工学院出版社。Shell,A.(2009年)。雷曼兄弟的倒闭引发了经济动荡。美国纽约市:美国广播公司(ABC)。孙,J.,贾,M.,&李,H.(2011)。财务困境预测的AdaBoost集成:与中国上市公司数据的实证比较。专家系统及其应用,38(8),9305-9312。Train,K.(2004)。模拟离散选择方法。英国剑桥:剑桥大学出版社。Trustorff,J.、Konrad,P.、Leker,J.(2011)。使用支持向量机进行信用风险预测。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:32:07
《定量财务与会计评论》,36(4),565-581。Tung,F.(2001年)。国际破产可能吗?《密歇根国际法杂志》,23(1),31-101。美国法院。(2016年7月27日)。2016年6月破产申请下降6.9%。检索自http://www.uscourts.gov/news/2016/07/27/june-2016-bankruptcy-filings-down-69-percentVerleysen,M.,&Francois,D.(2005)。数据挖掘和时间序列预测中的维数灾难。第八届人工神经网络国际研讨会(第758-770页)。西班牙巴塞罗那:计算机科学课堂讲稿。West,R.(1985)。银行状况的因子分析法。《银行与金融杂志》,9253-266。White,M.(1989年)。公司破产决定。《经济展望杂志》,3(2),129-151。第7章:参考文献Jacky C.K.Chow-2018年2月57 Williams,M.(2010)。无法控制的风险:雷曼兄弟的教训以及系统性风险如何仍能拖垮世界金融体系。美国纽约市:麦格劳·希尔教育公司。Wilson,R.,&Sharda,R.(1994)。利用神经网络进行破产预测。决策支持系统,11545-557。Yang,Z.,Platt,M.,&Platt,H.(1999)。破产预测中的概率神经网络。商业研究杂志,44(2),67-74。Zieba,M.,Tomczakb,S.,和Tomczaka,J.(2016)。集成增强树的合成特征生成在破产预测中的应用。专家系统与应用,58,93-101。使用机器学习分析金融信贷风险58 Jacky C.K.Chow-2018年2月8附录附录1:韩国破产数据集特征。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。59附录2:波兰破产数据集特征。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:32:10
60第8章:附录Jacky C.K.Chow-2018年2月59附录1:韩国破产数据集特征以下是对韩国破产数据集六个定性特征的详细描述:风险因素风险成分行业风险政府政策和国际协议周期性竞争程度市场供应的价格和稳定性规模市场需求的增长对宏观经济因素变化的敏感性国内外竞争力产品生命周期内部收益率管理风险性和管理能力管理的稳定性管理层/所有者人力资源管理增长过程/业务绩效之间的关系短期和长期业务规划,成就和可行性财务灵活性直接融资间接融资其他融资(附属公司、所有者、第三方)信誉度信用历史信息的可靠性与金融机构的关系竞争力市场定位核心能力水平差异化战略运营风险采购的稳定性和多样性交易生产效率产品和服务的需求前景销售多样化销售价格和结算条件应收帐款的收集销售网络的有效性使用机器学习分析金融信用风险60 Jacky C.K。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-6 21:32:13
周-2018年2月附录2:波兰破产数据集特征以下是波兰破产数据集中64个量化特征的完整列表:1净利润/总资产2总负债/总资产3营运资本/总资产4流动资产/短期负债5[(现金+短期证券+应收款项-短期负债)/(营业费用-折旧)]*365 6留存收益/总资产7息税前利润/总资产8权益账面价值/总负债9销售/总资产10权益/总资产11(毛利+非常项目+财务费用)/总资产12毛利/短期负债13(毛利+折旧)/销售额14(毛利+利息)/总资产15(总负债*365)/(毛利+折旧)16(毛利+折旧)/总负债17总资产/总负债18毛利/总资产19毛利/销售额20(存货*365)/销售额21销售额(n)/销售额(n-1)22利润经营活动/总资产23净利润/销售额24毛利(三年内)/总资产25(权益-股本)/总资产26(净利润+折旧)/总负债27经营活动利润/财务费用28营运资本/固定资产29总资产的对数30(总负债-现金)/销售额31(毛利+利息)/销售第8章:附录Jacky C.K。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群