一、课程背景
随着网络的迅速发展,互联网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问互联网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:
(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通过搜索引擎所返回的结果包含大量用户不关心的网页。
(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
(3)互联网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。
(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
为了解决上面的这些问题,网络定向爬虫技术应运而生,它可以在通过代码自动下载网页数据的程序,它根据抓取的目标有选择的进行访问互联网的网页与连接,获取所需要的信息。
二、学习目标
1、了解Python爬虫的基本知识
2、requests库的使用方法
3、使用Python爬虫进行下载小说与爬取电影评论
4、Xpath语法的使用方法
5、Selenium库的使用方法
三、课程对象
1、数据运营
2、数据分析师
3、数据爬虫工程师
4、机器学习算法工程师
5、感兴趣的小白
四、课程时间
3天(11小时)
五、授课形式
在线视频
六、课程纲要
1、网络爬虫简介
2、requests库的使用
3、小说下载案例
4、爬取电影评论案例
5、xpath语法的使用
6、爬虫数据库存储
7、Selenium自动化的使用
8、selenium爬虫的案例
进入课程:
《Python 爬虫》
DA内容精选