全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1479 0
2016-09-11
       最近是找工作的黄金时间,我想大多数和我一样即将毕业的学生会每天刷海投网,每天刷应届生校园招聘模块。这真是一件痛苦的事情,不同地点,不同学校不停的看,并且哪些看过,哪些没看最后都混成一团了。


      本着学习的精神,我就尝试用R语言作为工具,去抓取海投网和应届生的宣讲会信息,然后制作成表格,方便打印出来做记录,时刻提醒自己什么时候有宣讲会,什么时候要开始投递简历了等等。当然我的小程序还不是很健壮,有些功能还不能实现。

      罗里吧嗦说了半天,回到正题,我写的这个函数可抓取海投网上19个省区任意页面的宣讲会信息,并返回一个tibble(改进版的data.frame),这个tibble有七列,分别是宣讲学校、公司名称、举办时间、举办点、发布时间、点击率、举办当天是星期几。

      我姑且把这个函数叫做ht(prov = "湖北", page = 1 ),有两个参数,第一个是prov省区,支持中文,默认是湖北,第二个参数page是指定抓取指定省区的前多少页(即海投页码)。

      下面还是上代码:
复制代码
举个例子:我想抓取湖北省前10页的宣讲会信息,那么代码为,
复制代码
复制代码
      可以看到程序在运行,信息保存在tb中。我们可以查看一下:
复制代码

      海投网默认是每页显示20条记录,10页就是200条,我们的函数已经帮我抓取回来了。

       我知道我的函数还很粗糙,有些地区,如湖南,学校信息匹配会有个别不对,主要是海投网页源代码不一致。

      下一步想去抓取应届生校园招聘信息。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群