要加快建设数字中国,加快发展数字经济。2022年12月19日,《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)。该意见系统性布局了我国数据基础制度体系的“四梁八柱”,擘画了数据要素市场发展的宏伟蓝图。数据是数字经济时代的基础性资源,也是企业实现高质量发展的关键生产要素。中国信通院发布的《国家数据资源调查报告(2021)》显示,2021年我国数据产量达到6.6ZB,占全球数据总产量的10%,位列全球第二。在数据市场大发展的同时,如何有效评估、披露和管理数据资产是一大难题。2023年2月,组建国家数据局,这为数据要素市场建设和数据资产价格链的形成提供了制度保障。目前,许多企业将数据资源与日常经营深度融合,这激活了数据资源的价值,极大推动了企业数字化转型。
参考牛彪和于翔等(2024)的做法,通过“种子词+Word2Vec 相似词扩充”的文本分析方法测度数据资产信息披露水平。
该测度具体步骤分为三步:首先,根据中国信通院2019年发布的《数据资产管理实践白皮书(4.0版)》,“数据资产”被定义为能够为企业创造经济利益的数据资源。基于此,本文将“数据资产”和“数据资源”同时作为种子词汇。其次,通过深度学习技术和Word2Vec神经网络模型,生成与种子词汇语义相近的相似词词集,并仅保留相似度最高的前10个词汇,以确保测度的精确性,具体词汇如表1所示。此外,考虑到“基础信息”一词可能仅用于描述公司的基本情况,因此将其从相似词集中剔除。最后,通过挖掘并统计所有词汇在企业年报中每年出现的频次,并结合公式(1)计算企业的数据资产信息披露水平。

