试着爬招聘信息网站,遇到个问题
某网站工作信息里工作经验/学历要求的代码如下
工作经验和学历要求的class相同,不过em段(应该对应的拾工作经验和学历要求的图标)的class不同,实际上后面还有i3/i4对应语言年龄等
如果单独爬取这个页面的内容(比如工作经验)的话,我现在知道的是用
不过问题在于要爬很多工作页面,而有些页面可能只有学历要求的字段,工作经验字段没有,我对span.sp4段简单的选择[1][2][3]得到的肯定会出问题,比如这个页面%>% '['(1) 得到工作经验,如果某个页面没有经验要求只有学历要求我用%>% '['(1)得到的就是学历要求的属性。
而em的class属性和工作经验等内容是一一对应的不会出错。所以想问下,有没有什么方法利用 <em class="i1">这里的clss属性的定位上一层的<span class="sp4">?