全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
470 0
2024-01-13
全国285个地级市政府工作报告原始全文2002-2023文本总长度文本总词频统计
对原始全文的进行文本化处理,装载到excel,并进行词频分析统计

[1]数据介绍
数据名称:政府工作报告-文本数据
数据范围:市级
数据年份:市级(2002-2023),285个地级市
数据来源:地方政府网
数据格式:面板数据,包括原始全文
更新时间:2023年12月20日

[2]整理说明
从地方政府网爬取工作报告原始文件,将报告文本整理为面板数据,去除停顿词,利用python的jieba库进行精确模式和全模式分词,统计词频和保存原始文本、文本长度、词频总数

[3]指标内容
一共8个指标,如下:
【年份】  【地区等级】 【地区】   【报告全文】       
【文本总长度(字)        】
【仅中英文-文本总长度(字)】
【文本总词频-全模式(个)        】
【文本总词频-精确模式(个)        】

年份        地区等级        报告全文        文本总长度(字)        仅中英文-文本总长度(字)        文本总词频-全模式(个)        文本总词频-精确模式(个)


(100多MB的excel数据文件)
ec911445aeff92342962579795d5d2c.png




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群