2000-2023年中国上市公司年报中数据资产信息披露水平词频面板数据集
在数字经济时代,数据作为新型生产要素,正逐步成为企业提升核心竞争力的重要资源。数据资产的管理与信息披露水平,已经成为衡量企业透明度与数字化战略执行力的重要参考指标。越来越多上市公司在年报中披露有关“大数据”“数据平台”“数据挖掘”等内容,这一变化也为监管研究、投资决策及财务信息分析提供了新的思路。
本数据集基于2000年至2023年A股上市公司年度报告文本,通过“种子词 + Word2Vec相似词扩展”的方法,提取与数据资产相关的关键词词频,并据此构建数据资产信息披露水平指数。数据量覆盖6万余家公司年度样本,提供原始词频、总词数、披露强度等核心变量,辅以标准化披露评分,适用于文本分析、信息披露、数字转型、审计行为等研究。
一、数据说明
数据名称:2000-2023年中国上市公司年报中数据资产信息披露水平词频面板数据
数据范围:中国A股上市公司,约60,000+条年报文本记录
数据时间:2000-2023年
数据格式:面板数据(年度-公司-词频结构)
数据来源:基于年报文本,参考《中国信通院》《数据资产管理实践白皮书》标准,自行分析整理
二、核心变量字段字段名称 | 含义说明 |
股票代码 | 上市公司唯一识别代码 |
公司简称 | 上市公司中文简称 |
年份 | 年报对应年份 |
全文总词数 | 年报总字数 |
数据资产披露词频 | 所有目标词汇在年报中出现频率之和 |
披露指数(标准化) | 基于词频的披露强度测算结果 |
[td]
三、关键词体系(部分展示)
四、测算方法概述参考牛彪与于翔(2024)在《当代财经》中的研究框架,数据资产信息披露水平通过以下步骤计算:
种子词选择:以“数据资产”和“数据资源”为核心词汇
语义扩展:使用Word2Vec模型训练获取相似词集合
年报提取:提取所有词汇在年报中的出现频次
指数构建:披露强度 = ∑(词频)/年报总词数(或标准化得分)
五、参考文献
牛彪, 于翔, 苑泽明等. 数据资产信息披露与审计师定价策略[J]. 当代财经, 2024(2):154-164.
中国信息通信研究院. 数据资产管理实践白皮书(4.0版)[R]. 2019.
国家数据资源调查报告(2021). 中国信通院发布.
六、文件内容概览