R语言XML包无法爬取特定爬取网页表格数据的问题？急急急 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛

R语言XML包无法爬取特定爬取网页表格数据的问题？急急急

5198

3

收藏 2015-04-18

总结R语言爬取网页表格数据的方法，同时，向高手求教碰到的一个热别棘手的问题，跪求啊。
问题描述：
1、想爬取某个网站上表格数据，发现通过以下方法可以在部分网站实现。而在以下网站上无法实现（是因为网站做了屏蔽吗？）。
求教怎么可以通过R爬取到如下网站上的这个表格数据？
目标网站url： http://www.adbug.cn/Publisher/detail/p/a51423369a5d5a02e23e02dbe7ef3ac2#!advertiser

2、分享我现在对于网站有效的表格数据爬取方法

（1）下载包：install.packages("XML")
（2）运行以下代码：
library(XML);
doc <- "http://www.w3chtml.com/html/tag/table.html";
url.table<-htmlParse(doc,encoding="UTF-8");
xpath<-"//table";
url.node <- getNodeSet(url.table,xpath);
table<-url.node[[2]];
xt <- readHTMLTable(table,trim = TRUE, stringsAsFactors = FALSE);
xt;

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2015-4-18 21:27:40

你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术但是我也没完全解决我能够把每页的企业list 弄下来但是数据不行看看有没有高手

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-4-19 16:45:07

zxn2011 发表于 2015-4-18 21:27
你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术但是我也没完全解决我 ...

原网站有表格啊，需要把全部的链接复制到浏览器吧，帖子里自动识别链接部分少了几个字母。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-4-19 16:48:29

zxn2011 发表于 2015-4-18 21:27
你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术但是我也没完全解决我 ...

请问怎么用r把每页的企业list弄下来呢？这个我也需要。求教啊。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群