数据介绍:
- 年份:2000-2024
- 范围:A股上市公司
- 三个版本:数字化转型无形资产(未剔除未缩尾)、数字化转型无形资产(已剔除金融STPT未缩尾)、数字化转型无形资产(已剔除金融STPT已缩尾)
- 文件格式:Dta格式(使用Stata打开)、Xlsx格式(使用Excel打开)
- 注:提供了剔除所需数据和剔除代码,若无需做该项剔除处理,自行删除相关代码重新运行即可
- 行业参照证监会2012年行业分类标准,制造业用二级行业分类,其他用一级分类来计算并对连续型变量进行了1%和99%分位数的缩尾处理
- 代码格式:do文件(Stata 14/15/16/17/18)
计算说明:
指标说明:参考文献并按如下步骤构建刻画企业数字化转型指标:
第一步,整理上市公司年报,并通过Python的Java PDFbox库提取所有文本内容,以此作为后续特征词筛选的数据基础。
第二步,搜集文本数据后,使用Python中的jieba分词对年报文本进行分词处理。
第三步,参考文献制定出年报中有关“数字化转型”的词典,在分词后的文件中提取企业数字化关键词出现的频率,按参考做法要求进行清洗剔除。
第四步,整理各子维度词频:人工智能技术词频括号里这些词频加总(人工智能、
商业智能、图像理解、投资决策辅助系统、智能数据分析、智能机器人、机器学习、深度学习、语义搜索、生物识别技术、人脸识别、语音识别、身份验证、自动驾驶、自然语言处理);大数据技术词频=括号里这些词频加总(大数据、数据挖掘、文本挖掘、数据可视化、异构数据、征信、增强现实、混合现实、虚拟现实);云计算技术词频=括号里这些词频加总(云计算、流计算、图计算、内存计算、多方安全计算、类脑计算、绿色计算、认知计算、融合架构、亿级并发、EB级存储、物联网、信息物理系统);区块链技术词频=括号里这些词频加总(区块链、数字货币、分布式计算、差分隐私技术、智能金融合约);数字技术运用词频=括号里这些词频加总(移动互联网、王业互联网、移动互联、互联网医疗、电子商务、移动支付、第三方支付、NFC支付、智能能源、B2B、B2C、C2B、C2C、02O、网联、智能穿戴、智慧农业、智能交通、智能医疗、智能客服、智能家居、智能投顾、智能文旅、智能环保、智能电网、智能营销、数字营销、无人零售、互联网金融、数字金融、Fintech、金融科技、量化金融、开放银行)。
第五步,计算数字化词频总计=括号里这些词频加总(人工智能技术词频、大数据技术词频、云计算技术词频、区块链技术词频、数字技术运用词频)。企业数字化转型DCG为年报中涉数字化关键词的词数加1取自然对数,即数字化转型DCG=in(数字化词频总计+1);人工智能技术AI为年报中涉及人工智能技术关键词的词数加1取自然对数,即人工智能技术AI=ln(1+人工智能技术词频);区块链技术BD为年报中涉及区块链技术关键词的词数加1取自然对数,即区块链技术BD=ln(1+区块链技术词频);云计算技术CC为年报中涉及云计算技术关键词的词数加1取自然对数,即云计算技术CC=ln(1+云计算技术词频);大数据技术DT为年报中涉及大数据技术关键词的词数加1取自然对数,即大数据技术DT=ln(1+大数据技术词频);数字技术应用ADT为年报中涉及数字技术应用关键词的词数加1取自然对数,即数字技术应用ADT=ln(1+数字技术运用词频)。
处理说明:本资料所使用的词频原始数据为使用Python对上市公司年报进行文本分析后获得(jieba分词,停用词表使用哈工大停用词表),后续使用Stata进行整理,最终形成面板数据形
参考文献
- 吴非,胡慧芷,林慧妍,等.企业数字化转型与资本市场表现—来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.
代码:
数据量:
描述性统计:
结果数据