最新上市公司年报文本语气
年报文本语气数据库(Annual Report's Tone Database,ARTD)是基于上市公司2007年以来的年报文本信息,并根据已有中文语调研究成果,采用多种方法计算上市公司年报文本的语气建立而成的数据库,数据库设计了积极词汇数、消极词汇数、年报语调等多个字段。由于目前主流研究均基于年报文本中的正、负面词汇数量以及比例来判断年报的整体语调(曾庆生等,2018;王华杰和王克敏,2018),因此,情感词典的建立及其准确性对年报文本语气的判断过程显得至关重要。ARTD采用包括LM词典和台湾大学情感词典在内的前沿词典,运用多种方法计算年报文本语气,为该领域的深度研究提供了数据支撑。ARTD对年报文本语气判断方法如下:
1)参照曾庆生等(2018)的研究,以Loughran and McDonald(2011)提供的金融情感英文词汇列表为基础,依据有道词典和金山词霸对LM词典中的英文词汇进行了翻译,与曾庆生等(2018)保留一个英文词汇对应多个中文单词的情况不同,本数据库只保留与该英文词汇表达的中文情感最相关的中文词汇,最终的词汇列表包括2080个消极词,1076个积极词。由此计算LM_TONE1=(积极词汇数-消极词汇数)/年报词汇数,同时我们还提供LM_TONE2=(积极词汇数-消极词汇数)/(积极词汇数+消极词汇数),LM_TONE值越大,表示当年年报文本信息语气越积极。
2)参照王华杰和王克敏(2018)的研究,使用台湾大学制作的《中文情感极性词典》,将诸如积极、进步、高效等积极属性词语集作为积极情绪词语列表;将诸如低迷、暗淡、不利等消极属性词语集作为消极情绪词语列表。基于此,计算文本信息语气NTUSD _TONE=(积极词汇数量-消极词汇数量)/(积极词汇数量+消极词汇数量),NTUSD_TONE值越大,表示当年年报文本信息语气越积极。