全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
429 0
2025-06-03

全国31省份各省新型数字基础设施指标数据(2002–2025年,基于政府工作报告文本分析)



一、研究背景与数据价值

新型数字基础设施(NDI)是以5G、人工智能、物联网、云计算、大数据等为核心的信息技术基础设施,已成为中国推动数字经济发展的关键支撑。各省级政府工作报告作为地方治理理念与政策取向的重要表达载体,其对NDI的关注程度、提及密度及相关表述,反映了地区数字化发展战略的部署进度与重视程度。通过文本挖掘技术量化相关表述,有助于衡量各地数字基础设施的发展取向、政策力度与演进路径。



二、数据来源说明
  • 原始文本来源

    本数据基于全国31个省级行政单位(含直辖市、自治区)2002至2025年政府工作报告,原始文本主要采集自以下公开数据库和政府官网:


    • 各省级人民政府官方网站(如广东省政府门户网、浙江政务服务网等)

    • 中国政府网、地方人大常委会门户网站

    • 政策文件聚合平台如“北大法宝”“人大公报网”等


  • 文本处理方法

    借鉴钞小静等(2021)研究方法,使用Python与Jieba分词工具对报告全文进行分词,基于预设关键词词典(见下)统计每年NDI相关词汇总频与报告总词频,计算词频占比指标。并对同义词、术语变体、语义冗余等情况进行归一化处理。

  • 关键词词典构建依据

    关键词体系参考国家发展改革委、工信部等政策文件中NDI相关术语,以及已有文献归纳总结,包括但不限于“5G”“物联网”“人工智能”“大数据”“云计算”“智能制造”“数字基础设施”等60+项核心表达。





三、数据基本信息



四、核心字段说明

字段名称

含义

省份

指对应行政区划,如广东省、四川省等

年份

报告年份

各类关键词频次

包括“5G”“云计算”“物联网”等在报告中出现的次数

新型数字基础设施总词频

所有相关关键词合计出现频次

年报总词频

政府工作报告全文的总词汇数

新型数字基础设施指标

计算方式 = 新型数字基础设施总词频 / 年报总词频,作为标准化指标



[td]



五、计算方法说明(统一表达)

参考钞小静等(2021)方法,主要包括以下流程:

  • 文本采集:系统收集2002–2025年31省政府工作报告PDF/HTML版本;

  • 关键词构建:整理与新型数字基础设施相关的高频词汇,形成词典;

  • 文本处理:使用Jieba分词及正则表达式进行词频统计;

  • 指标计算:将NDI相关词汇出现频次除以报告总词数,形成标准化指标;

  • 时间序列构建:按省份与年份两级维度形成可比较的指标面板数据。





六、参考文献

[1] 钞小静, 廉园梅, 罗鎏锴. 新型数字基础设施对制造业高质量发展的影响[J]. 财贸研究, 2021, 32(10): 1-13.

[2] 工业和信息化部. 关于加快推进新型基础设施建设的指导意见[R]. 2020.

[3] 国家发展改革委. 推动“数字中国”建设的若干政策文件[Z]. 2021–2024.



七、部分数据展示
1、各省新型数字基础设施原始数据
WechatIMG3024.jpg

2、各省新型数字基础设施指标结果
WechatIMG3026.jpg
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群