全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
104 0
2025-07-12
Python爬虫程序源代码:Python采集咚漫网动漫内容

Python采集咚漫网动漫内容

包含:

(1)     程序源代码

(2)     完整的视频教程,全过程指导

一. 数据来源分析

    1. 确定自己需求:

        采集那个网站上面什么数据内容

        https://www.dongmanmanhua.cn/

    正常访问流程:

        1. 选中漫画 --->目录页面 <请求列表页面 获取所有章节链接>

        2. 选择一个漫画内容---> 漫画页面 <请求章节链接, 获取所有漫画内容url>

        3. 看漫画内容 <保存数据, 漫画图片内容保存下来>

    爬虫分析流程: <开发者工具进行抓包分析>

        1. 查看漫画图片url地址, 是什么样子

           https://cdn.dongmanmanhua.cn/166052717362315191169.jpg?x-oss-process=image/quality,q_90

        2. 分析url地址在哪里

            通过搜索功能 <开发者工具>  166052717362315191169

           https://www.dongmanmanhua.cn/BOY/moutianchengweimoshen/116-%E7%AC%AC43%E7%AB%A0-%E5%A2%9E%E5%8A%A0%E6%88%98%E6%96%97%E5%8A%9B%E5%90%A73/viewer?title_no=1519&episode_no=116

    - F12打开开发者工具, 进行刷新网页

    - 点击Img

    通过对比分析请求url地址变化 ---> 漫画内容都是来于章节链接里面

二. 代码实现步骤过程

    1. 发送请求 ---> 对于目录页面发送请求

    2. 获取数据 ---> 服务器返回响应数据 <网页源代码数据>

    3. 解析数据 ---> 提取想要章节链接 / 漫画名字 / 章节名字

    4. 发送请求 ---> 对于章节链接发送请求

    5. 获取数据 ---> 服务器返回响应数据 <网页源代码数据>

    6. 解析数据 ---> 提取想要图片链接

    7. 保存数据 ---> 保存到本地



3524353270b5894e7c667f619d4743f.png

1cf308a39b9a3f6b2a3e0c14ce92b12.png



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群