Python爬虫程序源代码:Python采集知乎专栏文档保存成pdfPython采集知乎专栏文档保存成pdf
包含
 
(1)      程序源代码
(2)     完整的视频教程,全过程指导
 
 
环境使用]:
    Python 3.8
    Pycharm
 
[模块使用]:
    requests >>> pip installrequests  数据请求
    parsel >>> pip install parsel  数据解析
    re >>> 内置模块 不需要安装 正则表达式
    pdfkit >>> pip install pdfkit
 
html_str ='''
<!doctypehtml>
<htmllang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{article}
</body>
</html>
'''
1. 采集文章内容, 保存成html文件
2. 把html文件, 转成pdf文件
 
采集数据:
    1. 发送请求
        找到相对应数据链接
    2. 获取数据
        获取响应数据
    3. 解析数据
        提取我们想要的内容
    4. 保存数据
        把解析出来数据进行保存
 
