Python爬虫程序源代码:使用Python实现大众点评网站数据的采集和保存实现目标:使用Python实现大众点评网站数据的采集和保存
包含:
(1) 程序源代码
(2) 完整的视频教程,全过程指导
环境配置:
Python 3.8
Pycharm开发环境
使用模块:requests、parsel
1. 数据请求模块的导入
模块选择:使用requests模块发送HTTP请求
导入方式:
import requests
2. 确定请求网址
网址构造:通过搜索关键词"火锅"获取列表页URL
示例URL:
url = "https://www.dianping.com/search/keyword/344/0_%E7%81%AB%E9%94%85/p2"
3. 伪装
关键伪装参数:
Cookie:用户登录信息,用于检测账号状态
Host:请求域名
Referer:防盗链,标识请求来源
User-Agent:浏览器身份标识
示例代码:
headers = {
'Cookie': 'fspop=test;cy=344;...',
'Host': 'www.dianping.com',
'Referer':'https://www.dianping.com/search/keyword/344/0_%E7%81%AB%E9%94%85',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...'
}
4. 发送请求
发送请求
请求方法:使用GET方式发送请求
响应接收:
response = requests.get(url=url,headers=headers)
5. 数据解析模块的导入
模块选择:使用parsel进行HTML解析
导入方式:
for循环遍历
遍历逻辑:逐个访问详情页URL
导入csv模块
数据保存:使用csv模块保存结构化数据