数据简介数据资产化是将企业数据资源转化为可量化资产的核心路径。本研究基于A股非金融行业上市公司年报文本,通过自用型(ODA)与交易型(DDA)数据资产词典进行词频挖掘,构建反映企业数据管理能力的标准化指标。该数据通过自然语言处理和双重标准化处理,量化揭示数据资源的配置效率、商业转化潜力及要素市场价值。因此本数据参考何瑛,陈丽丽,杜亚光(2024)的做法,构建上市公司数据资产化指标。
首先,我们基于A股上市公司年报的文本数据,剔除金融业和保险业的上市公司,加载专业词典和停用词表,筛选非金融行业公司年报,通过jieba分词提取有效中文词汇;匹配自用型(ODA)和交易型(DDA)数据资产关键词,分别统计两类词频并计算总和,其中部分数据资产化识别术语如下:
自用型:“数字设施”,“数字工厂”,“数字设备”,“数字经济”
交易型:“数字平台”,“数字贸易”,“数字认证”,“数字消费”…
分别计算各公司年报中特征术语的绝对出现频次及其占总文本词汇量的相对比重,由于这类数据具有典型的 “右偏性” 特征, 对其进行对数化处理 (即加 1 后取自然对数) , 从而得到刻画企业数据资产化程度的整体指标,包含股票代码、公司名称、总词数、特征词频次及占比的结构化数据集,为评估企业数字化转型水平、识别数据要素增值路径提供可度量依据,助力释放数据资产的经济价值与战略价值。
数据指标股票代码  | 公司名称  | 年份  | 
总文本词数  | 关键词词频  | DA(标准化)  | 
| 数据来源 | 原始数据来源于A股上市公司年报文本 | 
| 时间跨度 | 1991年-2024年 | 
| 区域跨度 | A股上市公司 | 
| 数据格式 | 数据格式为Excel形式 | 
数据展示
参考文献[1]何瑛,陈丽丽,杜亚光.数据资产化能否缓解“专精特新”中小企业融资约束[J].中国工业经济,2024,(08):154-173.