Python爬虫机器人

时光人

1728

收藏 2019-11-05

AIU 人工智能学院：数据科学、人工智能从业者的在线大学。

数据科学（Python/R/Julia）数据分析、机器学习、深度学习

爬虫机器人就是从网络上面取得特定数据的程序。分为三个步骤：首先取得网页数据，然后清洗数据，最后保存的到的数据。

得益于丰富的库资源，Python写爬虫程序比较简单。本篇会涉及到两个库requests和BeautifulSoup。

下面通过爬取一张图片的例子，感受一下Python爬虫机器人。爬取一个图片网站的图片。我们看一下如何爬取下面这个网页中的“搞怪的外国老人”这张图片。

此处有超链接，但是平台不让发，需要的回复我。

如何取得网页数据？

我们在浏览器看到的网页其实是满足一定规则和格式的文本文档。网页空白处点击右键，然后选择查看网页源代码，可以在一个新打开的窗口，看到下面的内容。这就是我们想要的当前网页的文本数据。

下面，我们看一下如何用Python代码取得网页数据。这里用到requests库，调用get方法，传入网址参数

如何清洗数据？

这一步就是，如果从得到的网页数据中，提取自己感兴趣的部分。这个例子中，我们要下载一张图片。直接分析数据不太好弄，我们需要和网页在同一个窗口内分析数据，Chrome浏览器按F12可以在网页窗口查看各种信息：

通过查看Elements栏目的文本块，找到图片的下载地址

这里实际上是img TAG里面的src属性的值：

下面又该Python上场了，该如何拿到这个值。这里用到另一个库BeautifulSoup。

如何保存数据？

我们需要把图片保存为本地文件。通过url请求图片数据；打开一个本地文件，然后把图片数据写入；关闭文件。

写在结尾的话

有没有感觉很酷，反正我是这样认为。让我们探索一下Python可以做那些“很酷”的东西。

关注“AIU人工智能”公众号，回复“白皮书”获取数据分析、大数据、人工智能行业白皮书及更多精选学习资料！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

yunnandlg

2019-11-6 05:56:00

一生中，我们要经历许多事，要相识相交许多人。而心灵像一个筛子，在世事颠沛流离中，慢慢的一些人就漏掉了。对于智者来说，他们漏掉的只是别人的过错与不足，他们不会去记恨一个人，而会记住他人的好和善，并时时充盈自己那颗感恩的心，宽容大气的生活，会让我们更容易感受到喜乐与安然。

谢谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cheetahfly

2019-11-6 08:02:32

谢谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

7808938462

2019-11-8 10:17:58

求一个超链接感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

escaflowne1985

2020-1-3 22:19:09

不明觉厉

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群