参考《中国工业经济》中何瑛(2024)的做法,团队统计了[url=]上市公司年报221个数据资产相关词频[/url]。以“信息”“网络”“数字”“数据”四个词作为种子词汇,构建相似词词集,并依据数据资产的具体用途,将其划分为自用型数据资产和交易型数据资产
数据资产化构建
一、数据介绍
数据名称:上市公司-数据资产化221个词频
数据范围:5630家上市公司
数据年份:1999-2023年
样本数量:63051条,233个变量
数据来源:上市公司年度报告
数据说明:内含数据资产化221个词频明细、文本统计面板
更新时间:2024年11月
二、整理说明
➤爬取1999-2023年上市公司年报
➤将原始报告文本整理为面板数据
➤统计年报全文的文本长度
➤统计全文中,中英文部分的文本长度
➤构建数字化术语词典,将词汇扩充到python的jieba库
➤去除停顿词,统计各明细词汇数目
➤计算数据资产化词频和
➤保留数据资产化词频和、明细词频