Python爬虫程序源代码:Python采集咚漫网动漫内容Python采集咚漫网动漫内容
包含:
(1) 程序源代码
(2) 完整的视频教程,全过程指导
一. 数据来源分析
1. 确定自己需求:
采集那个网站上面什么数据内容
https://www.dongmanmanhua.cn/
正常访问流程:
1. 选中漫画 --->目录页面 <请求列表页面 获取所有章节链接>
2. 选择一个漫画内容---> 漫画页面 <请求章节链接, 获取所有漫画内容url>
3. 看漫画内容 <保存数据, 漫画图片内容保存下来>
爬虫分析流程: <开发者工具进行抓包分析>
1. 查看漫画图片url地址, 是什么样子
https://cdn.dongmanmanhua.cn/166052717362315191169.jpg?x-oss-process=image/quality,q_90
2. 分析url地址在哪里
通过搜索功能 <开发者工具> 166052717362315191169
https://www.dongmanmanhua.cn/BOY/moutianchengweimoshen/116-%E7%AC%AC43%E7%AB%A0-%E5%A2%9E%E5%8A%A0%E6%88%98%E6%96%97%E5%8A%9B%E5%90%A73/viewer?title_no=1519&episode_no=116
- F12打开开发者工具, 进行刷新网页
- 点击Img
通过对比分析请求url地址变化 ---> 漫画内容都是来于章节链接里面
二. 代码实现步骤过程
1. 发送请求 ---> 对于目录页面发送请求
2. 获取数据 ---> 服务器返回响应数据 <网页源代码数据>
3. 解析数据 ---> 提取想要章节链接 / 漫画名字 / 章节名字
4. 发送请求 ---> 对于章节链接发送请求
5. 获取数据 ---> 服务器返回响应数据 <网页源代码数据>
6. 解析数据 ---> 提取想要图片链接
7. 保存数据 ---> 保存到本地