全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
1666 4
2019-11-05

AIU人工智能学院:数据科学、人工智能从业者的在线大学。

数据科学(Python/R/Julia)数据分析、机器学习、深度学习

爬虫机器人就是从网络上面取得特定数据的程序。分为三个步骤:首先取得网页数据,然后清洗数据,最后保存的到的数据。

得益于丰富的库资源,Python写爬虫程序比较简单。本篇会涉及到两个库requests和BeautifulSoup。

下面通过爬取一张图片的例子,感受一下Python爬虫机器人。爬取一个图片网站的图片。我们看一下如何爬取下面这个网页中的“搞怪的外国老人”这张图片。

此处有超链接,但是平台不让发,需要的回复我。

如何取得网页数据?

我们在浏览器看到的网页其实是满足一定规则和格式的文本文档。网页空白处点击右键,然后选择查看网页源代码,可以在一个新打开的窗口,看到下面的内容。这就是我们想要的当前网页的文本数据。

下面,我们看一下如何用Python代码取得网页数据。这里用到requests库,调用get方法,传入网址参数

如何清洗数据?

这一步就是,如果从得到的网页数据中,提取自己感兴趣的部分。这个例子中,我们要下载一张图片。直接分析数据不太好弄,我们需要和网页在同一个窗口内分析数据,Chrome浏览器按F12可以在网页窗口查看各种信息:

通过查看Elements栏目的文本块,找到图片的下载地址

这里实际上是img TAG里面的src属性的值:

下面又该Python上场了,该如何拿到这个值。这里用到另一个库BeautifulSoup。

如何保存数据?

我们需要把图片保存为本地文件。通过url请求图片数据;打开一个本地文件,然后把图片数据写入;关闭文件。

写在结尾的话

有没有感觉很酷,反正我是这样认为。让我们探索一下Python可以做那些“很酷”的东西。


关注“AIU人工智能”公众号,回复“白皮书”获取数据分析、大数据、人工智能行业白皮书及更多精选学习资料!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-11-6 05:56:00
一生中,我们要经历许多事,要相识相交许多人。而心灵像一个筛子,在世事颠沛流离中,慢慢的一些人就漏掉了。对于智者来说,他们漏掉的只是别人的过错与不足,他们不会去记恨一个人,而会记住他人的好和善,并时时充盈自己那颗感恩的心,宽容大气的生活,会让我们更容易感受到喜乐与安然。

谢谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-11-6 08:02:32
谢谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-11-8 10:17:58
求一个超链接 感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-1-3 22:19:09
不明觉厉
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群