数据介绍:
- 年份:2001-2024
- 范围:A股上市公司
- 三个版本:生成式人工智能水平(未剔除未缩尾)、生成式人工智能水平(已剔除金融STPT未缩尾)、生成式人工智能水平(已剔除金融STPT已缩尾)
- 文件格式:Dta格式(使用Stata打开)、Xlsx格式(使用Excel打开)
- 注:提供了剔除所需数据和剔除代码,若无需做该项剔除处理,自行删除相关代码重新运行即可
- 行业参照证监会2012年行业分类标准,制造业用二级行业分类,其他用一级分类来计算并对连续型变量进行了1%和99%分位数的缩尾处理
- 代码格式:do文件和python代码文件,含生成代码和分析评估代码,可直接运行,如下图所示。
- 分析结果及论文图表均在帖子末尾的压缩包,可直接下载查看情况
计算说明:
企业生成式人工智能水平的衡量采用词频分析法。对于上市公司来说,其年度报告中披露了公司的主营业务信息、经营状况以及管理层对未来发展方向的判断(姚加权等,2020),由此会包含企业技术创新和新技术应用方面的信息,对把握公司的经营战略和决策具有重要的参考价值。因此,本文考虑通过生成式人工智能关键词在企业年报信息中出现的次数作为评估企业生成式人工智能水平的代理指标。首先,本文整理所有样本企业的上市公司年报并将其转化为纯文本格式。其次,参考陈楠等(2023)从基础层、技术层、模型生态层3个维度作为生成式人工智能种子词搜索范围,同时参考Yang等(2024)对人工智能大模型概念和架构的介绍,以《2022中国大模型发展白皮书》《人工智能生成内容(AIGC)白皮书》《AI大模型发展白皮书》《中国人工智能大模型技术白皮书(2023版)》为语料库,从上市公司总样本中提取其前后语境,并尝试出现频率较高的文本组合,最后在既有文献基础上对关键词进行补充,并采用了专家验证方法确认关键词的相关性,以确保所选关键词能够准确反映企业生成式人工智能核心特点,形成分词词典。如表1所示,根据分词词典使用Python语言编程对年报文本内容进行分词与文本抓取,统计文中出现的生成式人工智能特征词词数,在此基础上,对词数加一取自然对数得到Gen_AI。
其中,概念基础层包括人工智能、生成式人工智能、大语言模型、预训练等分类词语,出现较高的词频组合有生成式人工智能、AIGC、预训练模型、大语言模型、大模型、人工智能基础模型等;主要技术层包括自然语言、架构、自回归、生成对抗、自编码、扩散、图谱、模型、多模态等,涉及自然语言处理、知识图谱、Transformer架构、胶囊网络、生成对抗网络、扩散模型、Diffusion Models、GAN、VAEs、变分自编码器、自回归模型、流模型、多模态生成架构等;模型生态层包括自然语言处理模型、大模型、基于Transformer架构模型、图像生成模型、多模态大模型等,涵盖Bert、GPT、XLM、ERINE、ViT、讯飞星大模型、文心一言、Lenet、AlexNet、ResNet、Mobilenet、EfficientNet、Keras、transformers、Horovod、Luminous、GLM、Torch、Bloom、CTRL、盘古大模型、混元大模型、CPM、KOSMOS-2、ImageBind等。
参考文献
计算代码及评估代码:
结果数据