数据介绍:
- 年份:2001-2024
- 范围:A股上市公司
- 三个版本:数据要素嵌入(未剔除未缩尾)、数据要素嵌入(已剔除金融STPT未缩尾)、数据要素嵌入(已剔除金融STPT已缩尾)
- 文件格式:Dta格式(使用Stata打开)、Xlsx格式(使用Excel打开)
- 注:提供了剔除所需数据和剔除代码,若无需做该项剔除处理,自行删除相关代码重新运行即可
- 行业参照证监会2012年行业分类标准,制造业用二级行业分类,其他用一级分类来计算并对连续型变量进行了1%和99%分位数的缩尾处理
- 代码格式:do文件和python代码文件,含生成代码和分析评估代码,可直接运行,如下图所示。
- 分析结果及论文图表均在帖子末尾的压缩包,可直接下载查看情况
计算说明:
数据要素嵌入(Dige)
上市公司年报是衡量一个企业主营业务信息、经营状况和企业战略导向的重要体现。某一类关键词在公司年报中出现的频率越高,代表着企业在此方面投入资源和关注越多。在整个数字经济发展和企业数字化转型的过程中,数据要素是整个进程得以持续运转的关键基础和核心要素,与其相关的关键词越多,代表企业数据要素嵌入水平越高。
以往研究中,对于数据要素的衡量大多局限于工业机器人数量、公司是否有数据业务以及数字化转型相关的关键词词频等方面。因此,在对数据要素嵌入程度缺乏更直接更有效量化指标的前提下,为尽可能精准地刻画出数据要素嵌入程度,本文借鉴赵宸宇等的研究方法,使用Python(爬虫)技术对上市公司年报信息进行文本分析和词频统计,并将与数据要素嵌入相关的关键词词频作为数据要素嵌入程度的一个直观反映,值越大表明企业数据要素嵌入水平越高。
具体而言,数据要素嵌入指标从数据源、数据技术、数据应用三个维度进行构建。数据源维度涵盖数据业务、数据管理、数据储存等特征,包括数据库、数据平台、数据中心、数据信息系统、数据管理、数据信息集成、异构数据、大数据、数字终端、云平台等关键词;数据技术维度涵盖数据加工、数据分析、数据建模等特征,包括数据挖掘、文本挖掘、数据分析、数据可视化、数字控制、数字技术、数字智能、数控、大数据技术、云计算技术、人工智能技术、智能制造、信息物理系统等关键词;数据应用维度涵盖数据共享、数据流通、数据赋能等特征,包括信息共享、信息管理、信息软件、信息网络、信息集成、信息终端、区块链、物联网、云服务、数字货币、数字营销、数字金融、互联网商业模式、电子商务、网络化、信息化、智能化、数字化等关键词。数据要素嵌入指标等于上述所有关键词在企业年报中出现的词频总和。
参考文献
- 杜勇,张欢,陈建英.金融化对实体企业未来主业发展的影响:促进还是抑制[J].中国工业经济,2017,(12):113-131.DOI:10.19581/j.cnki.ciejournal.20171214.007.
计算代码及评估代码:
结果数据