上市公司年报文本语气指标
指标说明
| 证券代码 | 证券代码 |
| 年份 | 年报所属会计年度 |
| 年报字数 | 年报全文总字数 |
| 年报词汇数 | 年报文本词汇数量 |
| 年报句子数 | 年报文本句子数量 |
| LM词典积极词汇数 | 基于LM词典计算年报文本中的积极词汇数 |
| LM词典消极词汇数 | 基于LM词典计算年报文本中的消极词汇数 |
| 台大词典积极词汇数 | 基于台湾大学《中文情感极性词典》计算年报文本中的积极词汇数 |
| 台大词典消极词汇数 | 基于台湾大学《中文情感极性词典》计算年报文本中的消极词汇数 |
| 基于LM词典的TONE1 | LM_TONE1=(积极词汇数-消极词汇数)/年报词汇数,LM_TONE1值越大,表示年报文本信息语气越积极 |
| 基于LM词典的TONE2 | LM_TONE2=(积极词汇数-消极词汇数)/(积极词汇数+消极词汇数),LM_TONE2值越大,表示年报文本信息语气越积极 |
| 基于台大词典的TONE | NTUSD_TONE=(积极词汇数量-消极词汇数量)/(积极词汇数量+消极词汇数量),NTUSD_TONE值越大,表示年报文本信息语气越积极 |
数据库设计了积极词汇数、消极词汇数、年报语调等多个字段。由于目前主流研究均基于年报文本中的正、负面词汇数量以及比例来判断年报的整体语调 (曾庆生等,2018;王华杰和王克敏,2018),因此,情感词典的建立及其准确性对年报文本语气的判断过程显得至关重要。
ARTD 采用包括 LM 词典和台湾大学情感词典在内的前沿词典,运用多种方法计算年报文本语气,为该领域的深度研究提供了数据支撑。ARTD 对年报文本语气判断方法如下:
一是参照曾庆生等 (2018) 的研究,以 Loughran 和 McDonald (2011) 提供的金融情感英文词汇列表为基础,依据有道词典和金山词霸对 LM 词典中的英文词汇进行了翻译。与曾庆生等 (2018) 保留一个英文词汇对应多个中文单词的情况不同,本数据库只保留与该英文词汇表达的中文情感最相关的中文词汇,最终的词汇列表包括 2080 个消极词,1076 个积极词。由此计算:
LM_TONE1 = (积极词汇数 - 消极词汇数) / 年报词汇数
LM_TONE2 = (积极词汇数 - 消极词汇数) / (积极词汇数 + 消极词汇数)
LM_TONE 值越大,表示当年年报文本信息语气越积极。
二是参照王华杰和王克敏 (2018) 的研究,使用台湾大学制作的《中文情感极性词典》,将诸如“积极”、“进步”、“高效”等积极属性词语集作为积极情绪词语列表;将诸如“低迷”、“暗淡”、“不利”等消极属性词语集作为消极情绪词语列表。基于此,计算文本信息语气:
NTUSD_TONE = (积极词汇数量 - 消极词汇数量) / (积极词汇数量 + 消极词汇数量)
NTUSD_TONE 值越大,表示当年年报文本信息语气越积极。
数据说明
数据区间20072022年
结果说明
描述性统计
| 样本量 | 均值 | 标准差 | 最小值 | 1%分位 | 中位数 | 99分位 | 最大值 |
年报字数 | 47232 | 211749 | 175598 | 3895 | 76802 | 155597 | 881698 | 2047796 |
年报词汇数 | 47232 | 50375 | 15706 | 1124 | 23165 | 48909 | 95192 | 183154 |
年报句子数 | 47232 | 1125 | 744 | 4 | 517 | 1065 | 2297 | 97412 |
LM词典积极词汇数 | 47232 | 3473 | 1105 | 14 | 1551 | 3365 | 6592 | 13763 |
LM词典消极词汇数 | 47232 | 3438 | 1125 | 6 | 1442 | 3391 | 6579 | 14080 |
台大词典积极词汇数 | 47232 | 3540 | 1139 | 14 | 1559 | 3430 | 6709 | 12075 |
台大词典消极词汇数 | 47232 | 1452 | 570 | 3 | 517 | 1438 | 2824 | 5912 |
基于LM词典的TONE1 | 47232 | 0.001 | 0.010 | -0.084 | -0.024 | 0.001 | 0.026 | 0.093 |
基于LM词典的TONE2 | 47232 | 0.007 | 0.073 | -0.457 | -0.164 | 0.007 | 0.190 | 0.567 |
基于台大词典的TONE | 47232 | 0.427 | 0.091 | 0.020 | 0.219 | 0.436 | 0.612 | 0.771 |
样本量
年份 | 数据量 |
2007 | 1,524 |
2008 | 1,590 |
2009 | 1,740 |
2010 | 2,064 |
2011 | 2,331 |
2012 | 2,448 |
2013 | 2,319 |
2014 | 2,569 |
2015 | 2,814 |
2016 | 3,111 |
2017 | 3,426 |
2018 | 3,582 |
2019 | 3,717 |
2020 | 4,230 |
2021 | 4,649 |
2022 | 5,118 |
总数据量 | 47,232 |
购买数据