一、数据集概览:
本数据集汇集了自1954年至2024年间,涵盖中央、省、市三级政府的工作报告文本,全面反映了不同历史阶段政府的工作进展与成效。这些文本是进行深入文本分析的宝贵资源。
主要内容:
已将这些政府工作报告的原始文本转换成了便于分析的面板数据格式,并在最新版中纳入了2024年的报告。数据集的时间范围如下:
- 中央政府:1954年至2024年
- 省级政府:2002年至2024年
- 地级市政府:2002年至2023年
我们希望这些更新的数据能够对您的研究工作提供帮助。
二、数据集详情:
- 名称: 政府工作报告文本数据集
- 涵盖层级: 中央、省、市级政府
- 时间跨度: 中央(1954-2024年)、省级(2002-2024年)、市级(2002-2023年)
- 来源: 官方地方政府网站
- 格式: 面板数据,含原始文本
- 整理: 由作者手工整理
- 更新日期: 2024年
- 主要指标:
年份 | 地区等级 | 地区 |
报告全文 | 文本总长度(字) | 仅中英文-文本总长度(字) |
文本总词频-全模式(个) | 文本总词频-精确模式(个) | |
三、数据处理说明:
- 数据采集: 直接从官方地方政府网站获取工作报告的原始文档。
- 数据整理: 将工作报告文本转换为面板数据格式。
- 分词处理: 使用Python的jieba库对文本进行分词处理,包括精确模式和全模式,以统计词频。
- 精确模式分词示例:优选、经管之家、数据
- 全模式分词示例:优选、经管、之家、数据、数据网
- 文本处理: 保留文本中的中英文字符和数字,并计算整个文本的总长度。
- 数据保存: 存储原始文本、文本长度以及词频统计信息。