上市公司MDA管理层讨论与经营情况分析语料语调可读性含文本TXT原始数据1999-2021情感分析NLP
数据来源:基于上市公司年报、公告整理
数据范围:沪深上市公司,A股主板、中小企业板、创业板、科创板
数据期间:1999-2021
包含两部分数据,一起打包如下:
其中:
一、上市公司MD&A管理层讨论与分析文本文件数据1999-2021
TXT文本,每年每家公司一个TXT文本文件

二、上市公司MD&A管理层讨论与可持续性分析数据2000-2021的网盘链接(近600MB数据压缩包)
excel格式,包含了经营分析内容、正面词汇、负面词汇的分析计算和处理

管理层讨论与分析数据库是针对上市公司财务报告中管理层讨论与分析模块而建立的专业数据库,数据库涵盖了从1999年至今所有上市公司的年报、半年报和季报中与经营讨论与分析相关的数据资料,并采用人工智能算法对文本内容涉及的正面、负面词汇进行判断识别。其中,正面词汇和负面词汇的判断基础主要是根据Tim Loughran and Bill McDonald(2011)的英文正负面词典翻译为中文词典,再结合中文语境进行扩充和完善得到。可以有效帮助使用者分析上市公司所披露和预期的经营文本数据。
MD&A文本极具研究价值,研究内容广泛,比如公司治理、审计、风险识别、证券投资、股价预测、公司金融等等。研究人员可通过自然语言处理技术提取和分析MD&A的情感分析、自利性归因、竞争和风险分析、关键词提取和蹭热点分析、可读性分析等等。欢迎会计学、[url=]金融学[/url]、产业经济学等研究方向的学者购买使用。
股票代码 | 公司股票代码 |
公司简称 | 公司简称 |
会计年度 | 所属会计年度 |
经营分析时间 | 层讨论与分析的发布时间 |
经营讨论与分析内容 | 层讨论与分析的详细内容 |
正面词汇数量 | 层讨论与分析内容中识别出的正面词汇数量 |
负面词汇数量 | 层讨论与分析内容中识别出的负面词汇数量 |
句子数量 | 层讨论与分析内容的句子数量 |
文字数量 | 层讨论与分析内容的文字数量 |
语调 =(正面词汇数-负面词汇数)/(正面词汇数+负面词汇数),
取值介于[-1,+1]该数值越高,表明管理层整体用词越积极正面,对公司目前经营现状、未来业绩和行业发展前景持积极乐观的态度。