全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 学道会
686 1
2020-09-16
9.15打卡
Python爬虫基础 Part1-2
通用网络爬虫与聚焦爬虫的比较
通用网络爬虫尽可能多的采集信息页面,而在这一过程中,它并不太在意页面采集的顺序和被采集页面的相关主题,这需要消耗很多的系统资源和网络宽带,并且对这些资源的消耗并没有换来采集页面的较高利用率。
聚焦爬虫,尽可能快的爬行、采集尽可能多的与预先定义好的主题相关的网页。聚焦爬虫可以通过对整个Web按主题分块采集,并将不同块儿的采集结果整合到一起,以提高整个Web的采集覆盖率和页面利用率。
URL的搜索策略——基于IP地址搜索策略、广度优先搜索策略、深度优先搜索策略、最佳优先搜索策略 tmp_4a73af8cf44659535cd9cab7ca39dfaae062a796a1bd4760.jpg tmp_8f4fa11cb7b6596825dd47f23fefdf52722dda2afd9d4c0b.jpg
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-9-16 16:10:42
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群