经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
提问 悬赏 求职 新闻 读书 功能一区
›
经管文库(原现金交易版)
【数据】CCTV新闻联播数据集2006年9月1日 - 2026年1月12日(python爬取)
楼主
学习学习实证
84
0
收藏
2026-01-13
【数据名称】新闻联播文字稿数据集
【数据来源】央视网新闻联播官方网站(https://tv.cctv.com/lm/xwlb/)
【时间跨度】2006年9月1日 - 2026年1月12日
【区域范围】中国
【数据格式】TXT文本文件
【数据规模】约7000+天的新闻联播文字稿
数据简介
CCTV新闻联播是中央电视台的旗舰新闻节目,每晚在黄金时段播出,深受广大观众关注,并被视为我国的主要新闻来源。每日文本数据指的是该节目每期的文字稿件内容,囊括了当日播报的各项新闻内容,从国内政治、经济、社会各领域到国际大事都有涉及。
本数据集收集了自2006年9月1日至2026年1月12日期间的新闻联播文字稿内容,涵盖近20年的新闻报道。这些数据为研究者提供了一个资料参考库,可以用于分析新闻报道趋势、政策方向以及与国际事件的互动态度等。
数据结构
数据按照"年份/月份"的层级目录结构组织,每天的新闻联播内容保存为一个独立的TXT文件。
文件夹结构:
新闻联播数据集TXT(2006.9.1-2025.12.05)/
├── 新闻联播爬虫.py 爬虫程序
├── 数据说明.txt 本说明文件
└── 新闻联播数据集TXT(2006.9.1-2025.12.05)/
├── 2006/
│ └── 2006-09/
│ ├── 2006-09-01.txt
│ ├── 2006-09-02.txt
│ └── ...
├── 2007/
├── ...
├── 2025/
│ └── 2025-12/
│ └── ...
└── 2026/
└── 2026-01/
├── 2026-01-01.txt
├── 2026-01-02.txt
└── 2026-01-12.txt
文件命名规则
- 按年份分文件夹:2006、2007、...、2025、2026
- 按月份分子文件夹:2006-09、2006-10、...、2026-01
- 每天一个txt文件:YYYY-MM-DD.txt(如:2026-01-12.txt)
文件内容格式
每个TXT文件包含当日新闻联播的所有新闻条目,每条新闻包含标题和正文内容。
示例格式:
标题:[视频]【"十五五"开好局起好步】办好民生实事 为千家万户添福祉
央视网消息(新闻联播):新的一年,各地立足"十五五"开好局、起好步,统筹推进民生保障和社会建设...
标题:[视频]国家首次明确政府投资基金布局和投向
央视网消息(新闻联播):国家发展改革委会同财政部、科技部、工业和信息化部今天(1月12日)发布...
(多条新闻之间用空行分隔)
数据特点
1. 时间跨度长:覆盖近20年的新闻报道,可用于长时间序列分析
2. 内容权威:来源于中央电视台官方媒体,内容准确可靠
3. 结构规范:按日期组织,便于检索和分析
4. 覆盖全面:涵盖国内政治、经济、社会各领域及国际大事
数据采集说明
数据通过Python爬虫程序自动采集,爬虫代码文件:新闻联播爬虫.py
采集流程:
1. 访问央视网新闻联播列表页,获取指定日期的新闻链接
2. 逐条访问新闻详情页,提取标题和正文内容
3. 按日期保存为TXT文件,组织到对应的年份/月份目录
爬虫使用说明
如需更新数据或补充爬取,可运行爬虫程序:
1. 安装依赖:
pip install requests beautifulsoup4
2. 运行爬虫:
python 新闻联播爬虫.py
3. 按提示输入日期范围:
- 开始日期(格式:YYYY-MM-DD)
- 结束日期(格式:YYYY-MM-DD)
4. 爬虫会自动:
- 按日期逐天爬取
- 创建年份/月份文件夹
- 保存每天的新闻内容为txt文件
数据统计
- 时间跨度:约20年(2006.9.1 - 2026.1.12)
- 数据天数:约7000+天
- 单日文件大小:约5-50KB(视当天新闻数量而定)
- 总数据量:约数百MB文本数据
新闻联播数据集TXT.zip
大小:(70.24 MB)
只需: RMB 48元
马上下载
新闻联播数据集TXT文件.zip
大小:(70.68 MB)
只需: RMB 68元
马上下载
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
栏目导航
经管文库(原现金交易版)
市场行情分析
金融类
金融实务版
经管在职研
微观经济学
热门文章
一点写代码的心得:“你可别再重构了!”
现代数学译丛18变分分析与广义微分I 基础理 ...
英伟达CES+2026PPT:计算的炼金术PART1:物 ...
机器学习不再是经管社科研究选择题,而是下 ...
CDA数据分析师实战:方差分析与F检验的业务 ...
CDA 认证考试大纲 2025 重磅更新:一二级考 ...
新宏观丨扩大内需的最大障碍是什么?
杨威老师的股海捕鱼
2025世界投资报告
中国绿色专利文本数据
推荐文章
26年寒假天津站|Gemini论文写作&数据分析 ...
2026JG学术冬训营:从Stata初高到Python机器 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
几种免费下载文献的方法----我的文献应助经
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群