全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2712 2
2017-12-12
我要爬取的链接是:http://ts.21cn.com/home/search?keyword=%E6%9C%89%E5%93%81%E9%92%B1%E5%8C%85 360截图20171212101113884.jpg
但是从R中跳转到网页的时候网址就变成了:http://ts.21cn.com/home/search?keyword=%E9%8F%88%E5%A4%8A%E6%90%A7%E9%96%BD%E5%8D%9E%E5%AF%98
360截图20171212101217157.jpg


我的编码是:
library(rvest)
library(stringr)
url <- 'http://ts.21cn.com/home/search?keyword=%E6%9C%89%E5%93%81%E9%92%B1%E5%8C%85'
web <- read_html(url,encoding="UTF-8") #读取信息
course.link <- web %>% html_nodes('div.complaint-info a._blank') %>% html_attrs()#获取属性
link <- c(1:length(course.link))#定义长度
for(i in c(1:length(course.link))){link <- course.link[][1]}#获取link_中的每一行中第一个数据(网址)

title <- web %>% html_nodes('div.complaint-info a._blank') %>% html_text()

现在无法读取网页数据,不知道怎么处理这个网页问题?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-12-12 11:10:39
发现网址中的“有品钱包”几个字是用UTF-8编码的,而URL是通过ASCII编码的,不知道这两者怎么转换?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-12-12 11:34:09
用URLencode函数把你的网站处理一下就Ok了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群