R语言用rvest爬虫时，网址中有中文字导致无法爬取怎么办

machine20101

2788

收藏 2017-12-12

我要爬取的链接是：http://ts.21cn.com/home/search?keyword=%E6%9C%89%E5%93%81%E9%92%B1%E5%8C%85

但是从R中跳转到网页的时候网址就变成了：http://ts.21cn.com/home/search?keyword=%E9%8F%88%E5%A4%8A%E6%90%A7%E9%96%BD%E5%8D%9E%E5%AF%98

我的编码是：
library(rvest)
library(stringr)
url <- 'http://ts.21cn.com/home/search?keyword=%E6%9C%89%E5%93%81%E9%92%B1%E5%8C%85'
web <- read_html(url,encoding="UTF-8") #读取信息
course.link <- web %>% html_nodes('div.complaint-info a._blank') %>% html_attrs()#获取属性
link <- c(1:length(course.link))#定义长度
for(i in c(1:length(course.link))){link <- course.link[][1]}#获取link_中的每一行中第一个数据（网址）

title <- web %>% html_nodes('div.complaint-info a._blank') %>% html_text()

现在无法读取网页数据，不知道怎么处理这个网页问题？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

沙发

machine20101

2017-12-12 11:10:39

发现网址中的“有品钱包”几个字是用UTF-8编码的，而URL是通过ASCII编码的，不知道这两者怎么转换？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

藤椅

jiangbeilu

2017-12-12 11:34:09

用URLencode函数把你的网站处理一下就Ok了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

关于用rvest抓取<script>标签里数据的问题

求助，rvest在提取数据的时候报错

rvest爬虫报错

R语言rvest包爬取网页数据问题

安装rvest总是出错，有木有大神帮下忙！

安装rvest总是出错，有木有大神帮下忙！

R语言rvest包爬虫报错

R语言rvest爬虫获取数据总是重复

如何用rvest包实现多网页数据的抓取？

rvest爬虫在节点名为变量的情况下批量抓取网页信息

栏目导航

R语言论坛

外文文献专区

休闲灌水

经管文库（原现金交易版）

经管高考

学者专栏

热门文章

通用指标与场景指标：CDA数据分析师的核心分 ...

2024年合集 ESG评级数据大全（彭博华证 Wi ...

复变函数专题选讲

在概率与代码之间：Agent Skills 是 AI 的枷 ...

CDA数据分析脱产就业班于2026年3月7日开班！ ...

参数估计：CDA数据分析师的核心推断工具，用 ...

GeoSaaS永久会员版

全国国土利用现状、耕地、园地、林地分布等 ...

癌症·真相：医生也在读（菠萝）

脑机接口行业系列报告：Neuralink带来的启示 ...

推荐文章

2026JG学术冬训营:从Stata初高到Python机器 ...

【必看】【本版版规，欢迎发悬赏贴求助】

【新课】26年3月｜Gemini辅助论文写作与数据 ...

关于如何利用文献的若干建议

关于学术研究和论文发表的一些建议

关于科研中如何学习基础知识的一些建议 (一 ...

一个自编的经济学建模小案例 --写给授课本科 ...

AI智能体赋能教学改革: 全国AI教育教学应用 ...

2025中国AIoT产业全景图谱报告-406页

关于文献求助的一些建议

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群