一、数据介绍
数据名称:政府工作报告-原始文本面板数据及词频统计
数据范围:全国31个省份
数据年份:2002-2020年(平衡面板为2007-2020年)
数据来源:地方政府网
数据说明:内含原始文本面板,以及精确模式和全模式两种情况下的25个词频统计面板
更新时间:2021年12月
二、整理说明从地方政府网爬取工作报告原始文件
将报告文本整理为面板数据
利用python的jieba库进行精确模式分词
(即:'推荐', '马克', '数据网')
利用python的jieba库进行全模式分词
(即:'推荐', '马克', '克数', '数据', '数据网')
去除停顿词
保留两种模式下的词频统计
附件列表