用R进行网页表格数据抓取问题

7754

收藏 2015-09-15

在网上找到一个用R进行网页表格数据抓取问题的博客，但用R操作好像得不到结果，哪位大神有经验的帮忙解答一下？
require(XML)
require(RCurl)

webpage<-getURL(link) ＃此处我将link换成所需表格所在的网页地址,例如"www.baidu.com"
  webpage <- readLines(tc <- textConnection(webpage)); close(tc)
  pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE)
tablehead <- xpathSApply(pagetree, "//table//th", xmlValue)  ＃这里是抓表格的标题
result<-xpathSApply(pagetree,"//table//td",xmlValue) ＃这里是表格内容

怎么能得到表格,在线求支援！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

ryoeng

2015-9-15 19:39:13

提示: 作者被禁止或删除内容自动屏蔽

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

归＠零

2015-9-16 11:19:49

ryoeng 发表于 2015-9-15 19:39
F12 >> Network >> XHR
或者直接在该文件链接点击右键后Inspect Element...
http://cos.name/cn/topic/11 ...

大神，我是R菜鸟，能否详细解释一下，我的需求是获取指定网址内的表格数据

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ryoeng

2015-9-16 14:01:34

统计之都

提示: 作者被禁止或删除内容自动屏蔽

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

归＠零

2015-9-17 18:08:05

ryoeng 发表于 2015-9-16 14:01
采集数据与 webdriver 是肖南兄和itelin的强项。（咱也是三年前从统计之都学来的）
http://cos.n ...

d1 = url %>% html_session() %>% html_nodes("li .td-1st") %>% html_text(encoding="UTF-8")

能麻烦您帮我解释下这类语句的作用是什么？ html_session() ；html_nodes；html_text是什么意思，还有里面的参数怎么获取？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ryoeng

2015-9-18 18:54:54

提示: 作者被禁止或删除内容自动屏蔽

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

统计之都

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群