上市公司企业情感语调数据上市公司年报情感语调数据(2010–2024年)
一、数据介绍
数据名称:上市公司企业情感语调数据(2010–2024年)
数据年份:2010–2024年
数据范围:中国A股上市公司(覆盖4,815家企业)
数据格式:面板数据,Excel文件
数据来源:基于上市公司年报文本,参考《财经研究》等学术成果,结合自然语言处理技术(NLP)处理与构建
二、数据指标该数据集基于企业年报文本语料,通过情感词典识别和文本分词提取以下主要字段:
字段名称 | 字段说明 |
Symbol | 股票代码 |
stkcd | 公司代码(标准Wind代码) |
year | 年份 |
ShortName | 公司简称 |
IndustryCode | 行业分类代码(证监会行业分类) |
IndustryName | 行业名称 |
正面词汇数量 | 年报中识别的积极情绪词数量 |
负面词汇数量 | 年报中识别的消极情绪词数量 |
总词汇数量 | 全部有效词汇数量 |
句子数量 | 文本中句子总数 |
文字数量 | 年报文字总字符数 |
情感语调1 | 正面词汇数 ÷ 总词汇数 |
情感语调2 | (正面词汇数 − 负面词汇数)÷(正面词汇数 + 负面词汇数) |
三、计算方法情感语调指标来源于对年报文本的词汇层级分析,主要参考钟凯等(2021)方法,构建以下两个核心量化指标:
文本情绪词提取基于中文财经情感词典,语料处理使用了分句、分词、词性标注、去除停用词等预处理步骤,确保情绪量化指标的稳定性和解释力。
四、参考文献钟凯, 董晓丹, 彭雯, 等. 一叶知秋:情感语调信息具有同业溢出效应吗?——来自业绩说明会文本分析的证据[J]. 财经研究, 2021, 47(09): 48–62.
五、数据概览