R与抓取豆瓣电影2000-2015年数据

sssyunsheng

13444

收藏 2015-06-07

最近发了份电影的评论，发表了一些浅见，今天特地整理了一下文中电影数据的来源，给缺乏动手能力的童鞋参考参考。《“大数据”评评2015年国产电影》文运用到2000到2015年豆瓣共47000部电影数据。

先说说怎么抓取数据吧。

首先一起看看豆瓣这个网址http://www.**.com/tag/2000/movie?start=0，有两个数字要注意一下，2000指的是2000年的意思，0代表的是第0部电影。我们在爬取其他年份的数据时，除了这两个数据外，其他的部分都是固定不变的。

这里需要用到XML包和数据整理包plyr包，用readLines函数抓取网页源码：

复制代码

经亲测，发现当爬取的页面超过100页时，豆瓣会封IP。所以如果要爬取的数据量比较大的话，尽量每爬100页就换一次IP地址，实在懒得去换的话，可以分几次去爬。另外，如果不小心被封了IP也不用担心，第二天就会解封的。

把数据爬下来后已经成功了一半了（木有错，就是这么几行代码），然后我们要用正则表达式把我们感兴趣的内容抓出来（方法不分高低，使用就行嘿嘿），不知道什么是正则表达式的百度一下。

首先，我们要找出我们感兴趣的数据附近都有什么标志符。如电影名附近：<a href="http://movie.**.com/subject/1292402/?from=tag_all" class="title" target="_blank">西西里的美丽传说 Malèna</a> ，除了电影名称外，其他如评分，评价人数，电影属性（电影属性包括导演、演员、国家、日期）等就在电影名称所在行的下面。需要注意的是，有些电影并没有评分数据，或者没有评论人数。如果先把电影名全部提取，再提取评分，我们会发现，数据错位了，无法将名称和评分绑定在一起，速7的评分可能就对上了大话天仙（还记得2014年的国产lan片吗）的评分。观察一下我们发现大约每部电影的信息共占有12行。因此，我们首先要把每一部电影相关的行全部抓取出来，放在list的同一个值内。

复制代码

这样list值的编码就代表一部电影，而且电影相关的所有数据都在这个值内。

下面我们就可以逐个提取信息了。

首先是电影名称：

复制代码

regexpr函数很有用，它返回的是模式之前有多少个字符和模式本身有多长，我们要的电影名称就在>十二公民<尖嘴符号之间，这样我们根据它返回的数字就可以用substr函数到电影名称所在行提起电影名称了，substr提取字符串两个参数之间的字符，最后我们将电影名称放在了name向量中。

其次提取电影评分：

复制代码

并非每一部电影都有评分，有些电影由于评价人数很低或没有人评价，就没有评分，我们首先需要将每一部电影包含评分的那一行从film中提取出来，如果某部电影缺少这一行，我们就给他赋个个空值占位，这样我们就保证了电影名称和评分可以对应在一起。然后在提取评分，提取评分和提取名称用到的函数一样，不在赘述。

然后是提取评论人数，过程和方法同提取评分一样：

复制代码

最后提取电影属性行：

复制代码

电影属性行独立一行，所以为我么省了很多麻烦，最后提取完成之后，要进行一次去重，因为同一部电影可能被豆瓣贴上不同年份的标签，但是不要只对电影名称去重，因为电影名称相同可能仍然是不同的电影，所以只有电影的属性也相同时才认为是重复。

到这里我们就提取了电影的所有数据，但是要做分析还是有点欠火候，我们需要处理电影属性，分离出年份、国家、类别、导演、演员等，处理方法我们将在另外一篇文章中解释，期盼高手指正。

关于我们

关注理性与文艺，用数据创作内容性的精致阅读。关注请加微信公众号：dayinrushuang或扫描下方二维码，如果你也有将技术写成故事的冲动，欢迎加入我们

附件列表

qrcode_for_gh_89f96c48034b_258.jpg

原图尺寸 27.99 KB

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

a443115637

2015-6-7 10:50:20

顶一下

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

godback009

2015-6-7 10:53:26

学习了。。。{:3_59:}

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

亚米UM

2015-6-7 15:01:00

楼主提取数据的那一段的web表示的是什么？不是有一个Web1了么

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

亚米UM

2015-6-7 17:51:38

看了一下午学习了一下楼主的代码里有两个小问题：
1.在抓取数据的时候，web1是每一页的源信息，但是我们要将所有页面的都保存下来，所以要存放在web里面，这才有了web <- c(web,web1) 楼主应该是漏给web赋值了只要Web <- "" 就行

2.有一段用list代表电影信息的时候代码有点错误，应该如下
film = list()
for ( i in (1:length(temp1)))
{
film1 <- list(web[temp1[i]:(temp1[i]+12)])
film <- c(film,film1)
}
length(film)

3.感谢楼主的分享，我也是入门的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Nicolle

2015-6-7 21:35:27

提示: 作者被禁止或删除内容自动屏蔽

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

sssyunsheng

2015-6-7 22:08:24

多谢各位的参与，由于我们这是一整套项目，从抓取数据，数据整形到入库分析等等，写文章只是提取了一小部分，所以匆忙成文难免有些遗漏指出，其中两个点已经由@亚米UM指出，以后会注意的，如果感兴趣可以加微信讨论，不仅仅是技术

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

auirzxp

2015-6-8 03:53:50

提示: 作者被禁止或删除内容自动屏蔽

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

qwe369

2015-6-13 04:08:38

非常好，谢谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

泡菜稀饭

2015-6-15 12:19:44

关注微信，多多学习

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

trans

2015-6-17 20:57:00

感谢楼主的分享，有个地方没看明白哦“http://www.**.com/tag/2000/movie?start=”
这个网址啥意思？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sssyunsheng

2015-6-17 21:01:57

trans 发表于 2015-6-17 20:57
感谢楼主的分享，有个地方没看明白哦“http://www.**.com/tag/2000/movie?start=”
这个网址啥意思？

你把它放到浏览器里就会明白了，他是你要抓取的页面啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

trans

2015-6-17 21:10:57

sssyunsheng 发表于 2015-6-17 21:01
你把它放到浏览器里就会明白了，他是你要抓取的页面啊

显示的是域名错误哈。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sssyunsheng

2015-6-17 21:13:30

好吧，豆瓣几个拼音被屏了，你拼一下就好了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sssyunsheng

2015-6-17 21:14:20

trans 发表于 2015-6-17 21:10
显示的是域名错误哈。。

好吧，豆瓣几个拼音被屏了，你拼一下就好了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

trans

2015-6-17 21:32:09

sssyunsheng 发表于 2015-6-17 21:14
好吧，豆瓣几个拼音被屏了，你拼一下就好了

我运行了，貌似跑不了噢
> library(XML)
> library(plyr)
> for(i in 1:100){
+ url1<-paste('http://www.**.com/tag/2010/movie?start=',15*i,sep="") #记得修改年份
+ web1 <- readLines(url1,encoding="UTF-8")
+ web<-c(web,web1)
+ }
Error: object 'web' not found

本人初学者，还望楼主不吝赐教，感谢！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sssyunsheng

2015-6-17 21:35:51

url<-'http://www.**.com/tag/2000/movie?start=0' #记得修改年份
web <- readLines(url,encoding="UTF-8")
system.time(for(i in 1:147){
  Sys.sleep(sample(15:20, 1))
  url1<-paste('http://www.**.com/tag/2000/movie?start=',15*i,sep="")#记得修改年份
  web1 <- readLines(url1,encoding="UTF-8")
  web<-c(web,web1)
  label <- i
})
**去掉换成豆瓣的拼音，以上整段跑一下，没关系，大家都是一点点学的，我上传了这个系列的整个pdf你可以参考下

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

trans

2015-6-18 08:05:07

sssyunsheng 发表于 2015-6-17 21:35
url

楼主热心人哈

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

trans

2015-6-22 17:17:07

Nicolle 发表于 2015-6-7 21:35
抓取数据

这位教授厉害

我运行了，出现下面错误提示，不知道啥原因

temp1 <- grep('class="title" target="_blank"',webtotal)
Error in grep("class=\"title\" target=\"_blank\"", webtotal) :
object 'webtotal' not found

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sssyunsheng

2015-6-22 17:43:19

豆瓣改版了，去掉了评价人数行，理论不变

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lww1993

2015-6-26 18:42:48

学习了。厉害！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kingcatcher

2016-8-9 10:05:48

谢谢楼主提供代码。我用您的代码爬出来的数据远没有4W+，而是8000+左右，平均每年的电影在34页之后就没有了，不知是豆瓣的原因还是什么其他原因。
楼主能否发一份数据到我邮箱59202746@qq.com？
若不方便的话，能否提供一些其他的方法来爬全部电影数据？
谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

中西茜

2016-8-26 15:02:41

周末学习一下

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

七彩空气

2016-8-26 21:17:22

这个写的很用心赞一个！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yaojiahan

2016-10-21 18:09:51

sssyunsheng 发表于 2015-6-17 21:35
url

那个跑完这段程序，为什么webtotal.Rdata里什么都没有？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jiqimao742

2016-10-21 19:58:27

多谢分享！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群