如原论文所述,作者提出的遗传算法方法的分类准确率为94%。他们还将其与其他两种数据挖掘技术,即归纳学习和神经网络进行了比较,报告的准确率分别为89.7%和90.3%。相比之下,第二个数据集(表示为数据集2)包含2000-2012年间波兰制造公司64个数量属性的5910个实例,2007-2013年间对一些仍在运营的公司进行了评估(Zieba、Tomczakb和Tomczaka,2016)。其中5500家公司没有宣布破产,其余410家公司在一年后申请破产。大多数数量属性是财务比率和计量经济指标,如大多数现有文献所示。这些属性的完整列表见附录2。分析这两个数据集的方法相似,将在下文中解释。请注意,数据集1和数据集2之间结果质量的差异可归因于不同的地理位置、不同的数据集大小、不同的特征和不同的数据质量等因素。4.1预处理各种输入特征的可能值范围可能会发生很大变化。例如,由于正常化,等式9定义的毛利率将始终小于1(即低于100%),而一些财务指标(如营运资本)理论上可以具有任何实际价值(即负无穷大到正无穷大)。