注:本次数据为MD&A报告统计,更新至2023年
在前文,团队利用上市公司年报全文,对“数字化转型”相关词频进行了统计。在本期附赠数据中,进一步对MD&A文本进行统计。数据更新至2023年,并额外增加行业信息、增加甄红线老师的139个关键词,原创过程详见上市公司MD&A数字化转型-原创过程
MD&A文本筛选:2014年及以前主要在“董事会报告”中筛选,2015年主要在“管理层讨论与分析”中筛选,2016年及往后主要从“经营情况讨论与分析”中筛选,2021-2023年主要在“管理层讨论与分析”中提取
相关数据:上市公司年报原文数据,人工智能词频数据,上市公司数字化词频数据
一、数据介绍
数据名称:企业数字化转型-MD&A报告词频、文本统计
数据范围:5606家上市公司
数据年份:2001-2023年
样本数量:60099条,344个变量
数据来源:[url=]上市公司“管理层讨论与分析”文本[/url]
数据说明:内含数字化转型314个词频、各维度水平、文本统计面板
更新时间:2024年6月
二、整理说明
➤爬取2001-2023年上市公司年报
➤将MD&A报告文本整理为面板数据
➤统计年报全文的文本长度
➤统计全文中,中英文部分的文本长度
➤构建数字化术语词典,将词汇扩充到python的jieba库
➤去除停顿词,统计精确词汇数目
➤计算数字化转型词频和、各维度水平词频和
➤计算3种方式下的数字化转型水平