文本大数据分析近年来在经济管理学研究当中应用广泛。为了助力学者们实现“文本分析自由”,CSMAR推出了多个文本分析主题的数据库,提供多元化的指标,可直接运用到相关研究当中。同时,为了帮助学者们更好地了解文本分析方法及相关数据资源地应用,本期内容中我们将针对文本可读性研究,结合CSMAR美国上市公司年报可读性数据库,为大家解读研究案例,分享数据资源。
文本可读性研究简述
文本大数据分析主要用于获取社会文本当中的非结构化信息,其过程主要包括:语料获取、文本的预处理、文档表示以及文档的特征抽取。然后研究者再根据需要将抽取的文档特征应用到具体的分析当中。
其中,文本可读性反映了读者理解文本信息的难易程度,可读性较低时,投资者等信息使用者会难以理解文本编辑者传达的信息,进而会影响到投资等行为。
在已有研究中,学者们构建了各种指数(如迷雾指数)来衡量文本的可读性,而CSMAR美国上市公司年报可读性数据库为研究者提供了提供FOG指数、Flesch Reading Ease指数等多个美国上市公司年报可读性指标,可直接应用于相关研究当中,为文本可读性研究的开展带来了极大便利。
下面我们将通过研究案例,了解相关数据资源在实际研究中的应用。
文本可读性研究案例
文本可读性研究可以从两个方向展开:
实证范文1:The causal effect of improved readability of financial reporting on stock price crash risk: Evidence from the Plain Writing Act of 2010 [J].Economics Letters,2022.
提高年报可读性对股价崩盘风险的影响:来自2010年简明写作法案的经验证据
内容概要
研究表明,年报语调可读性低会导致股价崩盘风险上升。本文以美国2010年的简明写作法案(Plain Writing Act, PWA)为外生影响因素,采用DID方法,分析得出:PWA的签署提高了10-K报告可读性,可读性的提高则降低了股价崩盘风险。
重要变量
相关数据
-海外研究系列-美国年报可读性
-海外研究系列-美国报告基本信息
实证范文2:How do auditors respond to low annual report readability? [J].Journal of Accounting and Public Policy,2021.
审计师如何应对可读性低的年报?
内容概要
研究显示,美国上市公司年报可读性较低时,需要增加审计工作以应对潜在的较高财务错报风险。较低的10-K可读性与较长审计延迟、较高审计费用显著相关,这表明当年报可读性较低时,审计师需要投入更大精力进行审计工作。此外,作者还发现,当年报可读性较低时,审计师在不合格审计报告中更有可能使用解释性话术。
重要变量
相关数据
-海外研究系列-美国年报可读性
实证范文3:Reporting strategies: What makes family firms beat around the bush?Family-related antecedents of annual report readability [J].Journal of Family Business Strategu ,2018
披露策略:家族企业为何闪烁其词?论家族渊源与年报可读性
内容概要
该研究从年报可读性的视角,分析了不同家族企业的信息披露策略。基于社会情感财富(socioemotional wealth, SEW)逻辑,文章引入了反映家族渊源的三个因素:家族掌权、家族冠名以及代际继替,对288家意大利上市家族企业进行了年报文本分析。结果显示,当家族掌权程度较高时,年报可读性上升,可能原因在于,掌权者认为在企业中的地位稳固,从而更有信心清晰披露公司相关信息;代际继替对年报可读性影响为负,可能原因在于,在代际交替过程中,原掌权者出于保留权力的目的,会采取“闪烁其词”的披露策略;家族冠名对年报可读性影响为负,可能原因在于,冠名之后企业的行为会直接影响家族形象与声誉,出于对后者的维护,年报披露的信息会更为含糊隐蔽。
重要变量
拓展思考
该研究的以意大利上市家族企业为研究对象,研究者们也可以类似思路,对美国上市家族企业进行分析,探究在不同文化背景下,上市公司信息披露的异质性。相关数据可从CSMAR数据库中获取。
-海外研究系列-美国年报可读性
-海外研究系列-美国报告基本信息
数据资源介绍
CSMAR美国上市公司年报可读性数据库收录了美国上市公司年报可读性指标及其计算基础的数据。
查询路径:https://cn.gtadata.com/-海外研究系列-美国年报可读性
此外,针对文本大数据分析,CSMAR数据库中还有更多子库,为研究者们提供多元化指标:
上述各数据库均是将已抽取好的文档特征直接提供给研究者,省去了文本挖掘的复杂过程,研究者能够直接将相关文档特征对应的指标运用到研究中,即可实现“文本分析自由”。