最近是找工作的黄金时间,我想大多数和我一样即将毕业的学生会每天刷海投网,每天刷应届生校园招聘模块。这真是一件痛苦的事情,不同地点,不同学校不停的看,并且哪些看过,哪些没看最后都混成一团了。
本着学习的精神,我就尝试用R语言作为工具,去抓取海投网和应届生的宣讲会信息,然后制作成表格,方便打印出来做记录,时刻提醒自己什么时候有宣讲会,什么时候要开始投递简历了等等。当然我的小程序还不是很健壮,有些功能还不能实现。
罗里吧嗦说了半天,回到正题,我写的这个函数可抓取海投网上19个省区任意页面的宣讲会信息,并返回一个tibble(改进版的data.frame),这个tibble有七列,分别是宣讲学校、公司名称、举办时间、举办点、发布时间、点击率、举办当天是星期几。
我姑且把这个函数叫做ht(prov = "湖北", page = 1 ),有两个参数,第一个是prov省区,支持中文,默认是湖北,第二个参数page是指定抓取指定省区的前多少页(即海投页码)。
下面还是上代码:
举个例子:我想抓取湖北省前10页的宣讲会信息,那么代码为,
可以看到程序在运行,信息保存在tb中。我们可以查看一下:
海投网默认是每页显示20条记录,10页就是200条,我们的函数已经帮我抓取回来了。
我知道我的函数还很粗糙,有些地区,如湖南,学校信息匹配会有个别不对,主要是海投网页源代码不一致。
下一步想去抓取应届生校园招聘信息。