目前一些介绍网页数据抓取的方法往往局限在一页上进行,如《在R语言中使用正则表达式》。需要说明的是,尽管《在R语言中使用正则表达式》介绍的方法也是针对豆瓣电影250的数据,但其实已不适合目前分5页显示的豆瓣电影250。为此,如果仿照该方法来抓取数据,只能抓取第一页而不是全部的电影数据,为此,本文的目的在于扩展运用《在R语言中使用正则表达式》介绍的方法,实现多页数据的一次性动态提取和整合。
movie.all<-NULL #设定汇总数据框初始状态;
for (n in 0:4){ #循环提取页面信息;
movie<-NULL;
url=paste("http://movie.douban.com/top250?start=",n*50,"&filter=&format=text",sep="")
# 获取网页源代码,以行的形式存放在web变量中
web <- readLines(url,encoding="UTF-8")