Python爬虫程序源代码:python实现百度文库VIP内容下载 保存到word文档python实现百度文库VIP内容下载, 保存到word文档
包含:
(1) 程序源代码
(2) 完整的视频教程,全过程指导
一. 分析数据来源
找 文档数据内容, 是在那个url里面生成的
- 通过开发者工具进行抓包分析
1. 打开开发者工具: F12/ 鼠标右键点击检查选择network
2. 刷新网页: 让本网页数据内容重新加载一遍
https://wkimg.bdimg.com/img/67eec05ef18583d04864592d?new=1&w=500&p=1
如果你是非VIP账号, 看数据, 图片形式 ---> 把数据<图片> 获取下来---> 做文字识别
3. 分析文库数据内容, 图片所在地址
1. 获取所有图片内容: 文库数据 --> 图片形式---> 所有图片内容保存下载
2. 文字识别, 把图片文字识别出来, 保存word文档里面
二. 代码实现步骤
1. 发送请求, 模拟浏览器对于url地址发送请求
图片数据包:
2. 获取数据, 获取服务器返回响应数据
开发者工具: response
3. 解析数据, 提取图片链接地址
4. 保存数据, 把图片内容保存到本地文件夹
5. 做文字识别, 识别文字内容
6. 把文字数据信息, 保存word文档里面