企业数字化转型-MD&A报告314个词频、文本统计(2001-2023年)
团队参考吴非(2021)、赵宸宇(2021)、甄红线(2023)的做法,对MD&A报告进行分析。利用“数字化转型”的总计314个关键词,计算2001-2023年上市公司“数字化转型程度”,分别记为数字化转型程度A、数字化转型程度B、数字化转型程度C
目录
➤整理过程
➤解析MD&A报告文本
➤定义“数字化转型”关键词
➤MD&A文本预处理
➤统计数字化转型词频明细
➤计算3种数字化转型、各维度水平
➤数据下载
第一步,解析MD&A报告文本
由于不同年份上市公司年报的格式设置有所不同,因此各年MD&A文本的提取方式有所变化
MD&A文本提取方式:
➤2014年及以前主要在“董事会报告”中提取
➤2015年主要在“管理层讨论与分析”中提取
➤2016年-2020年主要从“经营情况讨论与分析”中提取
➤2021-2023年主要在“管理层讨论与分析”中提取
第二步,定义“数字化转型”关键词
数字化转型A:参考《管理世界》中吴非(2021)的做法,马克团队对人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用五个维度76个数字化相关词频进行统计
数字化转型B:参考《财贸经济》中赵宸宇(2021)的做法,对数字技术应用、互联网商业模式、智能制造、现代信息系统四个维度99个数字化相关词频进行统计
数字化转型C:参考《经济研究》中甄红线(2023)的做法,对技术分类、组织赋能、数字化应用等类别下139个数字化相关词频进行统计
第三步,MD&A文本预处理
首先,爬取上市公司的公开年报,保存为pdf文件;其次,读取pdf格式的年报,提取MD&A报告文本,并将文本转为规范化的面板数据;再次,统计MD&A报告的文本长度,以及只保留中英文部分的文本长度
第四步,统计数字化转型词频明细
构建企业数字化术语词典,将词汇扩充到python的jieba库,并去除停顿词。统计314个“数字化转型”关键词出现的次数,并剔除关键词前存在否定词汇的词语:无、非、别、不、没、无、忽、莫、否、没有、还没、毫无、无需、无关
第五步,计算3种数字化转型、各维度水平
参考三位学者各自的“数字化转型”子维度的词频明细,加总词频和,并统计各个子维度,分别记为数字化转型程度A、数字化转型程度B、数字化转型程度C
参考文献
[1]吴非,胡慧芷,林慧妍,等.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.
[2]赵宸宇,王文春,李雪松.数字化转型如何影响企业全要素生产率[J].财贸经济,2021,42(07):114-129.
[3]甄红线,王玺,方红星.知识产权行政保护与企业数字化转型[J].经济研究,2023,58(11):62-79.