全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
41 0
2026-02-07
一、数据简介
本数据集基于中国各省级政府工作报告,利用Python的Jieba分词库
对数字生态相关关键词进行词频统计,构建省级数字生态发展水平的
文本量化指标。数据覆盖2002-2024年,可用于研究数字经济、数字
生态发展的区域差异与时间演变趋势。


数字生态关键词词典包括:数据、数字、网络、智慧、互联网、智能、
信息、信息化、信息安全、信息技术、系统信息、信息系统、电子信息、
信息平台、信息服务、信息产业、信息咨询、信息通讯、信息处理、
信息工程、信息资源、信息中心、信息传输、信息基础、科技信息、
信息共享、新兴产业、共享经济、宽带、5G、物联网、云计算、云生态、
云平台、云服务、云、区块链、电商、电子商务、金融、通信、IT、
B2B、C2C、B2C、C2B、O2O、自动化、自动控制、自动监测、自动监控、
自动检测等。

参考文献:
付成林, 王德新. 数字经济与统一大市场的因果效应与作用机制
——基于有效市场和有为政府视角[J]. 2023年第12期.
DOI: 10.19592/j.cnki.scje.410515

4.jpg

二、数据来源
原始数据来源于各省级政府工作报告(2002-2024年)的文本内容,
通过Python Jieba分词库进行关键词词频统计。省份编码为标准的
省级行政区划编码。

2.jpg


三、数据范围
时间范围:2002-2024年
空间范围:中国省级行政区(不含港澳台)
数据频率:年度面板数据

3.jpg


四、文件清单
1. 原始数据文件
   省级政府工作报告关键词词频数据.dta    各省各年各关键词词频(Stata格式)
   省级政府工作报告关键词词频数据.xlsx   各省各年各关键词词频(Excel格式)
   省份编码数据.dta                      省份名称与省级行政区划编码对照表


2. 计算结果文件(运行计算代码后生成)
   计算结果.dta                          汇总后的省级词频面板数据(Stata格式)
   计算结果.xlsx                         汇总后的省级词频面板数据(Excel格式)


3. 代码文件
   省级数字生态词频数据计算代码.do       数据计算代码(Stata版本)
   省级数字生态词频数据计算代码.py       数据计算代码(Python版本)
   省级数字生态词频数据评估代码.do       数据质量评估代码(Stata版本)
   省级数字生态词频数据评估代码.py       数据质量评估代码(Python版本)


4. 参考文献
   数字经济与统一大市场的因果效应与作用机制——基于有效市场和有为政府视角.pdf

1.jpg
五、计算结果变量说明
变量名                    类型      说明
省份                      字符型    省级行政区名称
省份编码                  数值型    省级行政区划编码
年份                      数值型    数据年份(2002-2024)
数字生态关键词总词频      数值型    该省份当年政府工作报告中数字生态
                                    相关关键词出现的总次数(行加总)

六、计算方法
1. 利用Python Jieba分词库对各省历年政府工作报告进行关键词
   词频统计,提取数字生态相关关键词的出现次数
2. 对所有关键词词频进行行加总(rowtotal),得到数字生态关键词
   总词频,以直接加总方式计算总披露次数
3. 匹配省份编码,形成省级年度面板数据
4. 按省份编码和年份排序输出


省级数字生态词频数据2002-2024年.zip
大小:(7.19 MB)

只需: RMB 32元  马上下载






二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群