全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
7697 9
2015-09-15
在网上找到一个用R进行网页表格数据抓取问题的博客,但用R操作好像得不到结果,哪位大神有经验的帮忙解答一下?
require(XML)
require(RCurl)

webpage<-getURL(link) #此处我将link换成所需表格所在的网页地址,例如"www.baidu.com"
  webpage <- readLines(tc <- textConnection(webpage)); close(tc)
  pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE)
tablehead <- xpathSApply(pagetree, "//table//th", xmlValue)  #这里是抓表格的标题
result<-xpathSApply(pagetree,"//table//td",xmlValue)   #这里是表格内容

怎么能得到表格,在线求支援!!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-9-15 19:39:13
提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-16 11:19:49
ryoeng 发表于 2015-9-15 19:39
F12 >> Network >> XHR
或者直接在该文件链接点击右键后Inspect Element...
http://cos.name/cn/topic/11 ...
大神,我是R菜鸟,能否详细解释一下,我的需求是获取指定网址内的表格数据
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-16 14:01:34

统计之都

提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-17 18:08:05
ryoeng 发表于 2015-9-16 14:01
采集数据 与 webdriver 是肖南兄和itelin的强项。(咱也是三年前从统计之都学来的)
http://cos.n ...
d1 = url %>% html_session() %>% html_nodes("li .td-1st") %>% html_text(encoding="UTF-8")

能麻烦您帮我解释下这类语句的作用是什么? html_session() ;html_nodes;html_text是什么意思,还有里面的参数怎么获取?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-18 18:54:54
提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群