9.15打卡
Python爬虫基础 Part1-2
通用网络爬虫与聚焦爬虫的比较
通用网络爬虫尽可能多的采集信息页面,而在这一过程中,它并不太在意页面采集的顺序和被采集页面的相关主题,这需要消耗很多的系统资源和网络宽带,并且对这些资源的消耗并没有换来采集页面的较高利用率。
聚焦爬虫,尽可能快的爬行、采集尽可能多的与预先定义好的主题相关的网页。聚焦爬虫可以通过对整个Web按主题分块采集,并将不同块儿的采集结果整合到一起,以提高整个Web的采集覆盖率和页面利用率。
URL的搜索策略——基于IP地址搜索策略、广度优先搜索策略、深度优先搜索策略、最佳优先搜索策略