上市公司企业年报文本语气数据2007-2022台大LM词典积极消极词汇数TONE中文情感极性词典
数据范围:数据来源+详细数据指标解释
参考文献:陈艺云,陈曼莲.定性文本信息与信用评级:基于年报文本分析的研究[J/OL].中国管理科学:1-12[2023-02-20]
数据来源:基于上市公司财报、公告等数据整理
数据期间:2007-2022,年度数据
数据范围:沪、深、北上市公司,A股主板、中小企业板、创业板、科创板、北京证券交易所的板块
主要指标:
列名:股票代码 会计年度 年报字数 年报词汇数 年报句子数 LM词典积极词汇数 LM词典消极词汇数 台大词典积极词汇数 台大词典消极词汇数 基于LM词典的TONE1 基于LM词典的TONE2 基于台大词典的TONE
Scode[股票代码]-上市公司股票代码
Year[会计年度]-年报所属会计年度
WordNum[年报字数]-年报全文总字数
VocabularyNum[年报词汇数]-年报文本词汇数量
SentenceNum[年报句子数]-年报文本句子数量
LM_positive[LM词典积极词汇数]-基于LM词典计算年报文本中的积极词汇数
LM_negative[LM词典消极词汇数]-基于LM词典计算年报文本中的消极词汇数
Ntusd_Positive[台大词典积极词汇数]-基于台湾大学《中文情感极性词典》计算年报文本中的积极词汇数
Ntusd_Negative[台大词典消极词汇数]-基于台湾大学《中文情感极性词典》计算年报文本中的消极词汇数
LM_Tone1[基于LM词典的TONE1]-LM_TONE1=(积极词汇数-消极词汇数)/年报词汇数,LM_TONE1值越大,表示年报文本信息语气越积极
LM_Tone2[基于LM词典的TONE2]-LM_TONE2=(积极词汇数-消极词汇数)/(积极词汇数+消极词汇数),LM_TONE2值越大,表示年报文本信息语气越积极
Ntusd_Tone[基于台大词典的TONE]-NTUSD_TONE=(积极词汇数量-消极词汇数量)/(积极词汇数量+消极词汇数量),NTUSD_TONE值越大,表示年报文本信息语气越积极