library(stringr)
library(xml2)
library(rvest) #加载包
i<-1:17 #设定抓取页数
xueshu_data<-data.frame()#创建数据框存储数据
#写个循环,对固定网页结构重复抓取
for (i in 1:17){
web<-read_html(str_c("http://xueshu.baidu.com/s?wd=%E8%89%BE%E6%A3%AE%E5%85%8B%2C%E7%BD%91%E7%BB%9C%E6%88%90%E7%98%BE&pn=",(i-1)*10,"&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D&sc_hit=1"),encoding="UTF-8")#read_html函数解析网页并规定编码str_c函数对页数循环
title<-web%>%html_nodes(".c_font")%>%html_text()#"a"即为Selectorgadget定位节点信息
title[16]<-NA
title<-title[!is.na(title)]#将多余信息设置为NA并剔除
year<-web%>%html_nodes(".sc_time")%>%html_text()
title_inf<-data.frame(title,year)
xueshu_data<-rbind(xueshu_data,title_inf)
}
write.csv(title_inf,file="C:/Users/wangjie/Desktop/修改/title_inf.csv")#写入数据
做出来的数据总是不能循环,有人能帮我解答下吗?