全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2030 1
2018-02-20
rt,本人最近在学习用R写爬虫,学习用Rcurl+XML包时遇到问题。代码如下
···
library(RCurl)
library(XML)
myHttpheader <- c("User-Agent"="Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",  
                  "Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",  
                  "Accept-Language"="en-us",  
                  "Connection"="keep-alive",  
                  "Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7")

url<-"https://book.douban.com/top250?icn=index-book250-all"
webpage <- getURL(url,httpheader=myHttpheader,.encoding="gb2312")
pagetree <- htmlTreeParse(webpage,encoding="GB2312", error=function(...){}, useInternalNodes = TRUE,trim=TRUE)

···
都是很常见的代码,我也是拷贝教程里的,但是当我运行htmlTreeParse时程序直接崩溃了,无论我怎么尝试都不行。我用了Rstudio和自带的IDE都会崩溃。。请问有没有人遇到和我一样的问题。
另外我的R版本是3.4
加载XML包时出现警告:Warning message:
程辑包‘XML’是用R版本3.4.1 来建造的

不知道是不是这个原因。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-2-21 19:16:53
没人能够帮忙吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群