全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2590 14
2019-05-10
奥克兰大学是新西兰的一所大学,2019QS世界排名第85位。今天跟大家分享一下怎么从该学校官网上爬取其一套R语言的pdf课件。
该课程的网址为https://www.stat.auckland.ac.nz/~ihaka/120/Lectures/,我们称之为url。下面是该套教程的官网截图。 捕获.PNG
我们随便点开一个文件如lecture01.pdf,就可以发现它的下载地址其实就是在上述url的基础上添加字符lecture01.pdf。我们只需要构建出所有需下载文件的网址就能对其进行下载了。以下是相应的代码。大家可以尝试一下。理解起来也非常简单的。
##安装与加载爬取文件需要的包
install.packages("downloader")
install.packages("rvest")

library(rvest)
library(downloader)

##创建网址中不变的部分
url <- 'https://www.stat.auckland.ac.nz/~ihaka/120/Lectures/lecture'

##创建每个文件网址最后的一段字符
a<-paste(0,c(1:9),sep="")
b<-c(a,as.character(c(10:29)))
c<-paste(b,"-8up",sep="")
num<-c(b,c)
numb<-paste(num,".pdf",sep="")

##将两段字符通过paste函数拼接起来形成完整的下载链接
link<-paste(url,numb,sep="")
link

#采用for循环批量下载课件
for(i in 1:length(link))
{
  download(link,paste("E:/R/",numb,sep = ""), mode = "wb")
}



这是下载完成后的样子和打开后的内容啦! 捕获1.PNG

捕获2.PNG
附件列表
捕获2.PNG

原图尺寸 152.18 KB

捕获2.PNG

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-5-10 16:39:58
忘说了,该教程是R语言开发者之一Ross Ihaka大神的教学课件。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-5-10 17:34:10
谢谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-5-10 17:57:41
华月天心 发表于 2019-5-10 16:19
奥克兰大学是新西兰的一所大学,2019QS世界排名第85位。今天跟大家分享一下怎么从该学校官网上爬取其一套R语 ...

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-5-11 08:04:35
华月天心 发表于 2019-5-10 16:19
奥克兰大学是新西兰的一所大学,2019QS世界排名第85位。今天跟大家分享一下怎么从该学校官网上爬取其一套R语 ...
感谢分享!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-5-11 08:16:32
楼主:重复不出来
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

分享

扫码加好友,拉您进群