【2024-1954】ZF工作报告合集（中央省市三级ZF） - 原始文本文档及爬虫指标提取

432

收藏 2024-05-16

一、数据集概览：
本数据集汇集了自1954年至2024年间，涵盖中央、省、市三级政府的工作报告文本，全面反映了不同历史阶段政府的工作进展与成效。这些文本是进行深入文本分析的宝贵资源。

主要内容：
已将这些政府工作报告的原始文本转换成了便于分析的面板数据格式，并在最新版中纳入了2024年的报告。数据集的时间范围如下：

我们希望这些更新的数据能够对您的研究工作提供帮助。

二、数据集详情：

三、数据处理说明：

数据采集：直接从官方地方政府网站获取工作报告的原始文档。
数据整理：将工作报告文本转换为面板数据格式。
分词处理：使用Python的jieba库对文本进行分词处理，包括精确模式和全模式，以统计词频。
- 精确模式分词示例：优选、经管之家、数据
- 全模式分词示例：优选、经管、之家、数据、数据网
文本处理：保留文本中的中英文字符和数字，并计算整个文本的总长度。
数据保存：存储原始文本、文本长度以及词频统计信息。

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

分享