全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1157 2
2017-04-18
试着爬招聘信息网站,遇到个问题
某网站工作信息里工作经验/学历要求的代码如下

复制代码


工作经验和学历要求的class相同,不过em段(应该对应的拾工作经验和学历要求的图标)的class不同,实际上后面还有i3/i4对应语言年龄等
如果单独爬取这个页面的内容(比如工作经验)的话,我现在知道的是用
复制代码
不过问题在于要爬很多工作页面,而有些页面可能只有学历要求的字段,工作经验字段没有,我对span.sp4段简单的选择[1][2][3]得到的肯定会出问题,比如这个页面%>% '['(1) 得到工作经验,如果某个页面没有经验要求只有学历要求我用%>% '['(1)得到的就是学历要求的属性。
而em的class属性和工作经验等内容是一一对应的不会出错。所以想问下,有没有什么方法利用 <em class="i1">这里的clss属性的定位上一层的<span class="sp4">?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-4-19 08:23:48
可以参考一下《基于R语言的自动数据收集》,里面有,好久不看忘了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-4-20 14:16:18
可否把网站贴出来
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群