全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4789 9
2015-01-21
最近在网上看到可以用R爬数据的。但是出现了问题不会解决。请大神指点迷津。
##问题1
library(“XML”, lib.loc=”F:/RStudio/R-3.1.2/library”)
library(“RCurl”, lib.loc=”~/R/win-library/3.1″)
url = ‘http://www.stats.gov.cn/tjsj/ndsj/2014/indexch.htm’##统计之都上的数据
doc<-htmlParse(url)
x <- readHTMLTable(doc)
##得出结果
> x
named list()

###问题2
u1=”http://tech.163.com/special/00094IGJ/top1000.html”
ta=readHTMLTable(u1,encoding=”UTF-8″)

##得到的是一堆乱码?
###问题有点多。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-1-21 10:09:08
http://www.crifan.com/try_use_r_language_do_web_crawl_and_extract_info/
试试用别的包吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-21 10:33:46
怎么说呢,我把你的URL里的链接打开后,只有一个页面,里面是图片。没有数据,你要爬什么?
附件列表
QQ截图20150121103134.jpg

原图尺寸 195.74 KB

QQ截图20150121103134.jpg

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-21 11:30:26
对于第二个乱码问题,简单写了一下
a<-"http://tech.163.com/special/00094IGJ/top1000.html"
aa<-htmlParse(a)
b<-getNodeSet(aa,'//div//table//td')
cc<-sapply(b,xmlValue)
dd<-iconv(cc,"utf-8")
这样就不是乱码了。但是具体要爬什么数据,还要具体修改结点
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-21 14:32:45
回复 巫慢慢
确实不乱码了,非常感谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-21 14:47:37
> a %>% html(encoding = 'utf-8') %>% html_nodes("table") %>% .[[6]]%>% html_table()
        X 1            NA                NA          NA     NA              NA       NA
1  全球排名      网站名称              分类    独立访客 到达率      页面浏览量 有无广告
2         1  facebook.com          社交网络 540,000,000  35.2% 570,000,000,000       有
3         2     yahoo.com          门户网站 490,000,000  31.8%  70,000,000,000       有
4         3      live.com          搜索引擎 370,000,000  24.1%  39,000,000,000       有
5         4 wikipedia.org    字典和百科全书 310,000,000    20%   7,900,000,000       无
6         5       msn.com          门户网站 280,000,000  18.1%  11,000,000,000       有
7         6 microsoft.com              软件 230,000,000  14.8%   3,300,000,000       有
8         7  blogspot.com          博客服务 230,000,000  14.7%   4,400,000,000       有
9         8     baidu.com          搜索引擎 230,000,000    15%  27,000,000,000       有
10        9        qq.com      在线沟通服务 170,000,000  11.1%  25,000,000,000       有
11       10   mozilla.com 互联网软件/浏览器 140,000,000   9.2%   2,100,000,000       无
12       11   sina.com.cn          门户网站 130,000,000   8.4%   3,600,000,000       有
13       12 wordpress.com          博客服务 120,000,000   7.7%   1,200,000,000       有
14       13      bing.com          搜索引擎 110,000,000     7%   2,700,000,000       有
15       14     adobe.com              项目 110,000,000   6.9%   1,000,000,000       有
16       15       163.com          门户网站  98,000,000   6.3%   2,700,000,000       有
17       16    taobao.com          网络购物  98,000,000   6.3%  10,000,000,000       无
18       17      soso.com          在线娱乐  97,000,000   6.3%   1,400,000,000       无
19       18   twitter.com      在线沟通服务  96,000,000   6.2%   5,400,000,000       无
20       19     youku.com          视频网站  89,000,000   5.8%   1,700,000,000       有
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群