基于Scrapy框架的python爬虫
使用scrapy框架之前需要先安装
Cmd环境下有两种命令可以获取安装包并安装:1.conda install scrapy; 2.pip install scrapy;
Scrapy shell 测试
Scrapy shell也称"Scrapy终端",是一个交互终端,使我们可以在未启动spider爬虫的情况下尝试及调试代码。
在Scrapy中使用xpath或是CSS等,之所以不用再导入第三方包,是因为在Scrapy中已内置了相应的Selector选择器。
Selector有四个基本的方法。
最常用的Xpath方法。
(1)xpath( )
我们通过书写xpath表达式,可使程序返回该表达式所对应的所有节点的selector list选择器列表,从而筛选我们想要定位的元素。
(2)extract( )
序列化节点为Unicode字符串,并返回list列表。
(3)css( )
根据css表达式,返回该表达式所对应的所有节点的selector list选择器列表,语法和BeautifulSoup4相同。
(4)re( )
根据书写的正则表达式,对数据进行提取,返回Unicode字符串list列表。
2