全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1072 1
2017-05-05
悬赏 88 个论坛币 未解决
以豆瓣网址为例https://book.douban.com/top250?icn=index-book250-all
我想爬取前25本书的书名,代码如下:
library(stringi)
library(rvest)
library(RCurl)
library(XML)
web<-read_html("https://book.douban.com/top250?icn=index-book250-all",encoding="UTF-8")
position<-web %>% html_nodes("td") %>% html_nodes("div") %>% html_nodes("a") %>% html_text()
position


出来的结果是这样:
如图,有很多斜杠,怎么才能把斜杠去掉,只留下书名呢?谢谢各位
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-5-5 15:52:23
这是R出来的结果
附件列表
QQ截图20170505154958.png

原图尺寸 28.3 KB

谢谢各位大神啦

谢谢各位大神啦

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群