Python爬虫程序源代码:爬取B站视频内容提取视频标题音频视频合成在一起
实现目标:python爬取B站视频内容提取视频标题音频视频合成在一起
包含:
(1) 程序源代码
(2) 完整的视频教程,全过程指导
"""
环境介绍:
python 3.8
pycharm
模块使用:
requests
re
subprocess
需要本节课的资料, 或者有什么问题都可以加视频上方的学习交流群的
分析一下B站视频数据和音频数据来自于哪里
1. 获取B站视频网页源代码
2. 解析数据, 提取我们想要的视频标题 / cid / session
3. 把cid session 传入我们找到的playurl这个数据包里面
4. 获取json字典数据
5. 解析数据提供音频url 视频 url
6. 保存数据
7. 合成视频 把音频和 视频内容 合成到一起
本节课案例需要注意的点:
1. 请求头需要加上防盗链>>> 如果没有加防盗链 是获取不到音频数据 和 视频数据
2. 需要安装 ffmpeg 这个软件并且需要设置环境变量
3. 视频标题里面的特殊字符 需要用正则表达式替换掉 并且 视频标题里面不能有空格
。。。。。。
。。。。。。