数字化政府建设指数(2007-2025)
数据来源:来源于政府工作报告、中经数据网、锐思数据库
时间跨度:2007年-2025年
区域跨度:地级市
数据格式:数据格式为Excel形式
数据简介
鉴于政府部门的数字化建设是其拥抱“数字化浪潮”的关键行为轨迹,无法通过传统的观察数据进行衡量,因此从非结构化的文本大数据中提取有效信息,将定性语义转化为定量指标是现阶段可供操作的测算方法。我们首先利用Python语言批量搜集和整理了2007~2025年中国各城市的《政府工作报告》,并基于Java PDFbox组件进行识别和文本转换,转为txt文件并整理保存为csv文件;第二,对“数字化政府”关键词典中的所有词汇进行词频统计。为减少文本分析中的噪声干扰,本文剔除了《政府工作报告》中的前置停用词、否定词和标点符号等;第三,计算在TF-IDF中引入包含时间维度的逆文本频率,具体公式为:image.png
其中,ln[tfct(θ)+1]表示城市c在第t年公布的《政府工作报告》中包含的关键词θ的统计词频(Term Frequency,TF);
为对应关键词θ的逆文本频率(Inverse Document Frequency,IDF),CGt和cgt(θ)分别代表在第t年样本中的《政府工作报告》文本总量以及包含关键词θ的文本总量;最后参考杨海生等(2020),计算每年各地方政府财政支出与全国财政支出比率,进行加权调整,最终得到本文计量模型中使用的数字化政府建设指数。
数据指标:
年份
省份
城市
地级市财政支出
国家财政支出
比率
TF-IDF
数字化政府建设指数
参考文献:
[1] 刘文革,耿景珠,杜明威.数“政”强贸:数字化政府建设与中国出口产品质量升级[J].数量经济技术经济研究,2024,41(06):67-87.
[2] 杨海生,柳建华中山大学岭南学院,连玉君中山大学岭南学院,等.企业投资决策中的同行效应研究:模仿与学习[J].经济学(季刊),2020,19(04):1375-1400.