数字化转型数据合集
整理了基本上最常见的数字化转型的度量方式,全部都是目前为止最为常用的顶刊数据用法,具体数据说明如下(全部为2022最新版本)
(已购买的朋友直接找我领取)
一、吴非版本(2007-2022)
1、参考文献:
[1]吴非,胡慧芷,林慧妍,任晓怡.企业数字化转型与资本市场表现——来自股票流动性的经验证[J].管理世界,2021,37(07):130-144+10.DOI:10.19744/j.cnki.11-1235/f.2021.0097.
2、数据处理说明
将文章整理的相关词汇分别分类为人工智能技术、区块链技术、云计算技术、大数据技术、数字技术应用,通过加总词汇得到数字化转型指标,在处理时,已剔除关键词前存在“没”“无”“不”等否定词语的表述。基本流程是吴非数据处理的过程,具体可以仔细参考,这里不再赘述
注意!!!!:
①原始的词频数据是来自于国泰安数据,然后自己处理了数据并且直接输出了能够直接匹配的数据(面板数据,没有经过缩尾!有处理的do文档,大家可以进行参考)
②关于词频数据的获取,这里给大家提供代码,该代码为jieba分词代码,包含有停用词,句子统计,详情见第二个袁淳的代码,基本步骤都一样,不提供解释,也不要再问有没有处理代码了。
3、数据展示
二、袁淳版本(2007-2022)(数据丰富)
1、数据说明:依据袁淳(2021)文章进行构建,并纳入吴非的词频作为补充
本文借助数字经济相关的国家政策语义表述,建立一个相对完备的数字化词典,并利用基于机器学习的文本分析法,构建一个较为全面反映中国上市企业数字化程度的指标。具体步骤如下:
第一步,构建企业数字化术语词典。由于缺乏专门的数字经济领域的术语词典,本文以国家政策语义体系为基础构建企业数字化术语词典。借鉴何帆和刘红霞(2019)等的研究,通过对中央人民政府、工业和信息化部网站进行检索,人工筛选得到2012—2020年期间发布的30份重要的国家层面数字经济相关政策文件以用于提取企业数字化相关的关键词。经Python分词处理及人工识别,最终筛选得到197个频率大于等于5次的企业数字化相关词汇,这些词汇构成了本文的企业数字化术语词典。
第二步,对年报相关语段进行文本分析。本文把上述数字化术语词典中的197个词汇扩充到Python软件包的“jieba”中文分词库,然后基于机器学习的方法对上市公司年报“管理层讨论与分析”(MD&A)部分进行文本分析,统计得到197个与企业数字化相关词汇在年报中出现的频率。
第三步,企业数字化程度指标的构建。考虑到年报MD&A部分文本长度的差异,在提取得到每家上市公司每年年报中各个关键词的出现频率后,本文采用企业数字化相关词汇频数总和除以年报MD&A语段长度衡量微观企业数字化程度(Digital)。为了表述方便,本文将该指标乘以100。Digital指标数值越大,表示企业数字化程度越高
2、文件内容
- python程序 包含怎么使用停用词 如何进行爬取(该代码不提供解 释)
- 输出的词频数量文件 30份重要的国家层面数字经济相关政策文件
- MDA的基本信息 管理层讨论的内容 总词数 总句数 总字数
- 最终结果 可以直接通过STATA 匹配使用的结果
3、参考文献
[1]袁淳,肖土盛,耿春晓,盛誉.数字化转型与企业分工:专业化还是纵向一体化[J].中国工业经济,2021(09):137-155.DOI:10.19581/j.cnki.ciejournal.2021.09.007.
4、数据说明
①2001-2020的数据为直接在wingo数据平台提取的关键词,输出结果以及整个的处理流程也全部给大家附上。
②2021、2022的数据则是采用jieba分词程序进行爬取,之后再进行的词频比例的统计
③该词频是通过分词政策文件对出现比例较高的词汇进行统计,但由于袁淳老师并未披露自己的具体词汇,因此该词汇具有一定的主观性,所以提供政策文本以及多个词汇以供大家进行选择。
④最终的输出数据并未进行任何剔除处理,但是已经给大家匹配了诸如行业代码以及ST相关的数据,请有需要者自行进行处理。
5、数据展示
三、无形资产(2001-2022)
1、数据说明:
以上市公司财务报告附注披露的年末无形资产明细项中与数字经济相关部分占无形资产总额的比例以及每年的变化程度作为代理变量。 具体地,当无形资产明细项包含“软件”“网络”“客户端”“管理系统”“智能平台”等与数字经济技术相关的关键词以及与此相关的专利时,标记该明细项目为“数字经济技术无形资产”,再对同一公司同一年度多项数字经济技术无形资产加总
2、参考文献:
[1]张永珅,李小波,邢铭强.企业数字化转型与审计定价[J].审计研究,2021(03):62-71.
[2]庞瑞芝,刘东阁.数字化与创新之悖论:数字化是否促进了企业创新——基于开放式创新理论的解释[J].南方经济,2022(09):97-117.DOI:10.19592/j.cnki.scje.391844.
3.数据处理
- 剔除上市之前的企业
- 剔除退市的企业
- 缩尾处理
- 剔除缺失值
4.数据展示
