全部版块 我的主页
论坛 经济学人 二区 外文文献专区
716 26
2022-06-11
英文标题:
《Predicting Distresses using Deep Learning of Text Segments in Annual
  Reports》
---
作者:
Rastin Matin, Casper Hansen, Christian Hansen and Pia M{\\o}lgaard
---
最新提交年份:
2018
---
英文摘要:
  Corporate distress models typically only employ the numerical financial variables in the firms\' annual reports. We develop a model that employs the unstructured textual data in the reports as well, namely the auditors\' reports and managements\' statements. Our model consists of a convolutional recurrent neural network which, when concatenated with the numerical financial variables, learns a descriptive representation of the text that is suited for corporate distress prediction. We find that the unstructured data provides a statistically significant enhancement of the distress prediction performance, in particular for large firms where accurate predictions are of the utmost importance. Furthermore, we find that auditors\' reports are more informative than managements\' statements and that a joint model including both managements\' statements and auditors\' reports displays no enhancement relative to a model including only auditors\' reports. Our model demonstrates a direct improvement over existing state-of-the-art models.
---
中文摘要:
公司困境模型通常只在公司年报中使用数字财务变量。我们开发了一个模型,该模型还使用了报告中的非结构化文本数据,即审计师报告和管理层声明。我们的模型由一个卷积递归神经网络组成,当与数值财务变量连接时,该网络学习适合于企业困境预测的文本描述。我们发现,非结构化数据在统计学上显著提高了困境预测的性能,特别是对于准确预测至关重要的大型公司。此外,我们发现,审计师的报告比管理层的声明更具信息量,与仅包含审计师报告的模型相比,包含管理层声明和审计师报告的联合模型没有显示出任何增强。我们的模型显示了对现有最先进模型的直接改进。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-11 03:31:25
利用年度报告中文本片段的深度学习预测困境,*, Casper Hansenb,Christian Hansenb,Pia Molgaardanmarks Nationalbank,DK-1093 Copenhagen K,DenmarkbDepartment of Computer Science,University of Copenhagen,DK-2100 CopenhagenO,DenmarkAbstractCorporate Dispose models通常只在公司年度报告中使用数字财务变量。我们开发了一个模型,在报告中也使用非结构化文本数据,即审计师报告和管理层声明。我们的模型由一个卷积递归神经网络组成,当与数值财务变量连接时,该网络学习适合于企业困境预测的文本描述性表示。我们发现,非结构化数据在统计学上显著提高了危机预测性能,尤其是对于准确预测至关重要的大型企业。此外,我们发现,审计师的报告比管理层的声明更具信息量,同时包含管理层声明和审计师报告的联合模型与仅包含审计师报告的模型相比,没有显示出任何增强。我们的模型显示了对现有最先进模型的直接改进。关键词:公司违约预测、离散风险模型、卷积神经网络、递归神经网络1。简介统计公司困境预测是一项二元分类任务,由Altman(1968)和Ohlson(1980)等人率先提出。他们使用有限数量的财务比率作为输入,并使用简单的模型,如线性判别分析和逻辑回归进行分类,其中财务比率以线性组合的形式进入模型。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 03:31:28
自那时起,一系列先进的统计方法(“机器学习”)被应用于梯度增强(如Caruana和NiculescuMizil(2006))和神经网络(如Atiya(2001);Tsai和Wu(2008)),包括卷积神经网络(Hosaka(2019))。传统上,困境模型仅采用企业年度报告中的数字财务变量,即结构化数据。然而,年度报告还包含文本段形式的非结构化数据(审计师报告和管理层声明),这可能是灾难预测的丰富信息来源。*相应的authorEmail地址:rma@nationalbanken.dk(拉斯汀·马汀),c。hansen@di.ku.dk,+4542802347(卡斯珀·汉森),chrh@di.ku.dk,+4542482347(Christian Hansen),pim@nationalbanken.dk(Pia Molgaard)自2013年起,丹麦监管机构要求企业按照开放数据财务报告标准提供年度报告,该标准称为可扩展业务报告语言(XBRL),可轻松提取这两个文本段。基于自然语言处理领域的最新进展,我们提出了一种预测企业困境的深度学习方法,该方法将这些文本片段与数字财务变量相结合。通过使用2013年至2016年丹麦企业年度报告(相当于278047个企业年度),我们的测试表明,与仅基于结构化数据的通用最新基线分类法相比,审计师的报告以及管理层的报表在较小程度上提高了预测准确性。这表明,非结构化数据包含一个信号,可以增强企业困境预测模型。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 03:31:31
数据的现成可用性使得这项研究特别有价值,因为目前的最新技术可以直接进行整理。我们研究了一个采用审计师报告的模型,一个采用管理层声明的模型,以及一个同时采用审计师报告和管理层声明的amodel。对于这三个模型中的每一个,我们首先对文本应用标准的预处理技术,然后使用卷积递归神经网络进行模式提取和识别。然后将卷积递归神经网络的输出与数值财务变量连接,并使用两个完全连接的层来估计最终模型。我们的模型进一步利用了注意机制,通过能够突出显示对最终预测很重要的单词,提高了模型的可解释性。我们将这三个模型的性能与仅基于结构化数据的三个竞争性危机预测模型进行了比较:逻辑回归、梯度增强树和与使用文本的网络具有相同体系结构的神经网络。采用文本的模型优于所有其他模型。具体而言,我们发现,在神经网络中加入审计报告、管理层声明和两个文本段,可将AUC测量的预测准确率分别提高1.9、1.1和1.8个百分点。包括审计师报告在内的模型的绩效明显优于包括管理层声明在内的模型,这表明审计师报告的信息量更大。包含这两个文本段产生的结果与仅包含审计师报告的结果相同,说明在我们的样本中,管理层的声明中不包含对困境预测有用的信息,这些信息超出了审计师报告中已经包含的信息。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 03:31:35
最后,我们对占经济债务95%的大型企业的子样本进行了相同的分析,并在纳入审计报告时发现了更强的模型改进。鉴于该测试是在丹麦数据上进行的,而且丹麦是一个相对较小的经济体,我们认为,与其他较大的经济体相比,文本分析的收益应被视为一个下限,在其他较大的经济体中,更多的数据允许改进模型训练,特别是对于数据饥饿模型,如神经网络。在下一节中,我们将回顾相关工作。第3节和第4节分别描述了数据和方法,第5节证明了我们的方法在预测公司困境方面的适用性。在第6节中,我们展示了所选单词块的热图,并在第7.2节中得出结论并概述了未来的工作。文献综述传统上,金融研究中的文本分析包括基于词数的简单语义分析(参见Loughran和McDonald(2011)以及本文的参考文献)。最近的一个例子是Buehmaierand Whited(2018),他使用天真的Bayes算法,通过使用每个管理层报表中的字数作为输入,对企业受到财务约束的概率进行建模。一小串与我们的工作最相关的文献致力于公司困境预测中的文本分析。Hájek和Olej(2013)根据文本中的特定词语,将年度报告分为六个不同的语义类别。然后,他们使用各种模型表明,情绪指标提高了模型预测企业困境的能力。R"onnqvistand Sarlin(2017)开发了一个深度学习模型来分析金融新闻,目的是识别陷入困境的金融机构,Cerchiello等人。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 03:31:38
(2017)对模型进行了推广,将数字财务变量也包括在内。我们在Hájek和Olej(2013)的工作基础上,应用了基于深度学习的高度数据驱动的文本处理方法,从而允许我们学习更深入的文本表示并提取更强的信号。此外,我们通过分别检查审计师报告和管理层声明,深入了解年度报告的哪些特定文本部分包含与困境预测最相关的信息。这种数据驱动的文本分析方法与R"onnqvist和Sarlin(2017)以及Cerchiello等人(2017)的方法非常接近。然而,与Cerchiello等人(2017)相比,我们从端到端地学习了文本表示,Cerchiello等人首先学习了与特定任务无关的文本表示,然后将其与数字财务变量一起使用。我们的方法可以通过文本表示来寻找报告中的信号,这些信号对于痛苦预测任务非常重要。此外,我们的分析基于跨公司同质的年度报告,而新文章往往侧重于公众感兴趣的特定故事。更深入的研究是使用神经网络和其他机器学习技术(仅基于数值金融变量)重新评估模型的概念(见Jones et al.(2017);Sun等人(20172014);Zieba等人(2016年))。现有文献倾向于发现,当模型中仅包含数值财务变量时,基于树的算法,即随机森林和梯度增强树,优于神经网络。因此,除了传统的逻辑回归模型外,我们还将我们的模型与神经网络以及最先进的梯度增强树进行了对比。3、数据我们的数据集基于Christoffersen等人(2018)使用的数据。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群