关于R爬虫的 - 经管之家

关于R爬虫的

cdl0102

1228

收藏 2017-04-18

试着爬招聘信息网站，遇到个问题
某网站工作信息里工作经验/学历要求的代码如下

复制代码

工作经验和学历要求的class相同，不过em段（应该对应的拾工作经验和学历要求的图标）的class不同，实际上后面还有i3/i4对应语言年龄等
如果单独爬取这个页面的内容(比如工作经验)的话，我现在知道的是用

复制代码

不过问题在于要爬很多工作页面，而有些页面可能只有学历要求的字段，工作经验字段没有，我对span.sp4段简单的选择[1][2][3]得到的肯定会出问题，比如这个页面%>% '['(1) 得到工作经验，如果某个页面没有经验要求只有学历要求我用%>% '['(1)得到的就是学历要求的属性。
而em的class属性和工作经验等内容是一一对应的不会出错。所以想问下，有没有什么方法利用 <em class="i1">这里的clss属性的定位上一层的<span class="sp4">？