全国285个地级市政府工作报告原始全文2002-2023文本总长度文本总词频统计
对原始全文的进行文本化处理,装载到excel,并进行词频分析统计
[1]数据介绍
数据名称:政府工作报告-文本数据
数据范围:市级
数据年份:市级(2002-2023),285个地级市
数据来源:地方政府网
数据格式:面板数据,包括原始全文
更新时间:2023年12月20日
[2]整理说明
从地方政府网爬取工作报告原始文件,将报告文本整理为面板数据,去除停顿词,利用python的jieba库进行精确模式和全模式分词,统计词频和保存原始文本、文本长度、词频总数
[3]指标内容
一共8个指标,如下:
【年份】 【地区等级】 【地区】 【报告全文】
【文本总长度(字) 】
【仅中英文-文本总长度(字)】
【文本总词频-全模式(个) 】
【文本总词频-精确模式(个) 】
年份 地区等级 报告全文 文本总长度(字) 仅中英文-文本总长度(字) 文本总词频-全模式(个) 文本总词频-精确模式(个)
(100多MB的excel数据文件)