全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
5118 3
2015-04-18
总结R语言爬取网页表格数据的方法,同时,向高手求教碰到的一个热别棘手的问题,跪求啊。
问题描述:
1、想爬取某个网站上表格数据,发现通过以下方法可以在部分网站实现。而在以下网站上无法实现(是因为网站做了屏蔽吗?)。
求教怎么可以通过R爬取如下网站上的这个表格数据
目标网站url:  http://www.adbug.cn/Publisher/detail/p/a51423369a5d5a02e23e02dbe7ef3ac2#!advertiser

2、分享我现在对于网站有效的表格数据爬取方法

(1)下载包:install.packages("XML")
(2)运行以下代码:
library(XML);
doc <- "http://www.w3chtml.com/html/tag/table.html";
url.table<-htmlParse(doc,encoding="UTF-8");
xpath<-"//table";
url.node <- getNodeSet(url.table,xpath);
table<-url.node[[2]];
xt <- readHTMLTable(table,trim = TRUE, stringsAsFactors = FALSE);
xt;






二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-4-18 21:27:40
你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术 但是我也没完全解决 我能够把每页的企业list 弄下来 但是数据不行 看看有没有高手
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-19 16:45:07
zxn2011 发表于 2015-4-18 21:27
你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术 但是我也没完全解决 我 ...
原网站有表格啊,需要把全部的链接复制到浏览器吧,帖子里自动识别链接部分少了几个字母。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-19 16:48:29
zxn2011 发表于 2015-4-18 21:27
你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术 但是我也没完全解决 我 ...
请问怎么用r把每页的企业list弄下来呢?这个我也需要。求教啊。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群