全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
311 0
2025-04-21

2000-2023年中国上市公司年报中数据资产信息披露水平词频面板数据集



在数字经济时代,数据作为新型生产要素,正逐步成为企业提升核心竞争力的重要资源。数据资产的管理与信息披露水平,已经成为衡量企业透明度与数字化战略执行力的重要参考指标。越来越多上市公司在年报中披露有关“大数据”“数据平台”“数据挖掘”等内容,这一变化也为监管研究、投资决策及财务信息分析提供了新的思路。


本数据集基于2000年至2023年A股上市公司年度报告文本,通过“种子词 + Word2Vec相似词扩展”的方法,提取与数据资产相关的关键词词频,并据此构建数据资产信息披露水平指数。数据量覆盖6万余家公司年度样本,提供原始词频、总词数、披露强度等核心变量,辅以标准化披露评分,适用于文本分析、信息披露、数字转型、审计行为等研究。



一、数据说明
  • 数据名称:2000-2023年中国上市公司年报中数据资产信息披露水平词频面板数据

  • 数据范围:中国A股上市公司,约60,000+条年报文本记录

  • 数据时间2000-2023年

  • 数据格式:面板数据(年度-公司-词频结构)

  • 数据来源:基于年报文本,参考《中国信通院》《数据资产管理实践白皮书》标准,自行分析整理





二、核心变量字段

字段名称

含义说明

股票代码

上市公司唯一识别代码

公司简称

上市公司中文简称

年份

年报对应年份

全文总词数

年报总字数

数据资产披露词频

所有目标词汇在年报中出现频率之和

披露指数(标准化)

基于词频的披露强度测算结果



[td]




三、关键词体系(部分展示)
  • 种子词:数据资产、数据资源

  • 扩展词:信息资源、数据平台、数据共享、数据挖掘、数据分析系统、海量数据、大数据、知识库、数据源等

  • 提取方法:Word2Vec语义相似词扩展(保留Top 10词汇)






四、测算方法概述

参考牛彪与于翔(2024)在《当代财经》中的研究框架,数据资产信息披露水平通过以下步骤计算:

  • 种子词选择:以“数据资产”和“数据资源”为核心词汇

  • 语义扩展:使用Word2Vec模型训练获取相似词集合

  • 年报提取:提取所有词汇在年报中的出现频次

  • 指数构建:披露强度 = ∑(词频)/年报总词数(或标准化得分)






五、参考文献
  • 牛彪, 于翔, 苑泽明等. 数据资产信息披露与审计师定价策略[J]. 当代财经, 2024(2):154-164.

  • 中国信息通信研究院. 数据资产管理实践白皮书(4.0版)[R]. 2019.

  • 国家数据资源调查报告(2021). 中国信通院发布.





六、文件内容概览 WechatIMG2377.jpg
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群