全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2969 2
2018-04-03
本人在做网络数据抓取过程中,用的是rvest包(因为利用getURL()汉字乱码)。
下附为题所在。
>html0403<-list()
>for (i in 1:100) {
     urlab0403<-str_c(url0403,new0403$V1[1]) #获取真实地址,循环从1到100下载对应的网页
     html0403[]<-read_html(urlab0403)
     Sys.sleep(10)
     setTxtProgressBar(progress_bar,i)
}

|=========================================================================================| 100%

>x<-html_nodes(html0403[[1]],".detail_main_right_conbg_con script") #选区节点 因为数据在 script 下
{xml_nodeset (4)}
[1] <script>origTime("3月26日17时51分新不列颠地区发生6.6级地震","2018-03-26 18:30:51");\n</script>
[2] <script>subStringLocationLatitude("-5.42");</script>
[3] <script>subStringLocationLongitude("151.31");</script>
[4] <script>shengdu("40.0");</script>

> class(x)
[1] "xml_nodeset"
> typeof(x)
[1] "list"

> as.data.frame(x[1])
Error in as.data.frame.default(x[1]) :
  不能把""xml_nodeset""类别强迫变成数据框




如何保存?请求大神不吝赐教。





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-4-3 17:03:36
准备用另外一种方法,先用download_html()先下载下来再说!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-5-19 21:37:59
x%>%html_text()
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群