数据介绍:
- 年份:2000-2024
- 范围:A股上市公司
- 三个版本:数字技术应用水平(未缩尾未剔除)、数字技术应用水平(已缩尾未剔除)、数字技术应用水平(已缩尾已剔除金融STPT)
- 文件格式:Dta格式(使用Stata打开)、Xlsx格式(使用Excel打开)
- 注:提供了剔除所需数据和剔除代码,若无需做该项剔除处理,自行删除相关代码重新运行即可
- 行业参照证监会2012年行业分类标准,制造业用二级行业分类,其他用一级分类来计算并对连续型变量进行了1%和99%分位数的缩尾处理
- 代码格式:do文件(Stata 14/15/16/17/18)
计算说明:
参考文献并按如下步骤构建刻画数字技术应用水平的指标:
- 第一步,整理上市公司年报,并通过Python的Java PDFbox库提取所有文本内容,以此作为后续特征词筛选的数据基础
- 第二步,参考文献制定出年报中有关“数字技术应用”的词典(共计20个关键词)
- 第三步,搜集文本数据后,使用Python中的jieba分词对年报文本进行分词处理
- 第四步,最后在分词后的文件中提取数字技术应用关键词出现的总频率,并将20个关键词在年报中的词频作为衡量企业数字技术应用水平的代理指标数字技术应用关键词:信息化人网络化、数字化、智能化、智慧化、信息技术、数字技术、互联网、物联网、云计算、大数据、人工智能、数字资源、数字资产、电子商务、虚拟社区、智慧制造、智能制造、数字平台、数字转型
处理软件:原始数据为使用Python对上市公司年报进行文本分析后获得(jieba分词,停用词表使用哈工大停用词表),后续使用Stata进行整理,最终形成面板数据形式
参考文献
- 陈庆江,万茂丰,王彦萌.数字技术应用对企业双元创新的影响——基于组织生命周期的实证检验[J].软科学,2021,35(11):92-98.
代码:
数据量
描述性统计:
结果数据