Rcurl 爬取网站目标字段，html标签缺失，字段长度不一致

1164

收藏 2016-10-24

hello，
   本人初学R,用Rcurl、XML爬取搜房网的信息，但是有个目标字段“建筑年代”不是每条信息都包含的，所以解析提取目标字段后dataframe无法将长度不一致的向量合并在一起，也就是说，缺少的那条信息不知道怎么让它留空占位，
  提取函数：
giveBuildyear = function(rootNode){
            buildyear <- xpathSApply(rootNode,"/html/body/div[7]/div[3]/div[1]/div[2]/dl[*]/dd[1]/p[3]/span[10]",xmlValue)
            buildyear
         }

也就是在HTML中会直接缺少span[10]的标签，请教如何解决这个问题？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

chenjipeidx

2016-10-27 10:46:52

等待大牛们解答。。。。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群