最近突然想看电影了,跑去电影天堂却不知道该看哪一步,很纠结呀,想来想去还是去知乎上搜搜高评分的电影。发现新大陆呀,还是网友的力量大,挖掘出了高评分的电影,并作一一罗列,足足400多部啊。具体内容可点击豆瓣电影TOP250不够看?这下有看不完的电影了~
于是,我想着该把这些数据抓取下来并保存到本地,然后再分析分析这些电影都有哪些特征。关于数据的抓取和分析,全程使用R语言,后文有获取数据和代码的方法。接下来我们以问题为导向,一一剖析这些电影的特征。先来看看抓取下来的数据结构长啥样吧:
一、数据处理由上图可知,抓取下来的数据最后一列包含了电影的拍摄国家和电影类型,这里需要将国家和电影类型分别存储到两个变量中,用于后面的分析探索使用。我们注意到,最后一列的用斜杠/分割开来,那我们就可以用这个斜杠作为字符串的分隔符:
发现截断的每一个词前后都用空格,需要将这些空格过滤掉:
完成数据切割和清洗后,接下来就要从这些词中抽取出国家或地区的名称存储到一个变量,抽取出电影类型存储到另一个变量。
首先,需要前往搜狗官网,下载所有国家和地区名称的字典,再利用“深蓝词库转换”工具,将scel格式的字典转换成txt:
OK,到目前为止,我们需要分析的数据都已经整理好了,接下来开始探索这些数据。
二、参评人数最多的Top10的电影
结果发现,肖申克的救赎、这个杀手不太冷、盗梦空间是上图top10中的top3,哈哈,这些电影你都看过吗?
三、一部电影需要多少国家合拍
由于电影的制作包含5个国家及以上的分别只有1部电影,故将5个国家及以上的当做1组
对于上面统计的数据,我们运用环形图进行数据的展现:
结果显示,这428部电影,有三分之一都是至少两个国家和地区合拍而成。
四、电影产量top10都是哪些国家
上图,统计发现,香港,中国大陆和台湾入围前十,分别是第5,第7和第10名。前三的归美国,英国和日本。美国绝对是量产的国家,远远超过第二名的英国。接下来,我们运用文字云来展现上面的统计数据。
五、电影主要都是什么类型
由于几乎所有的电影都贴上剧情这个标签,我们暂不考虑这个类型,看看其他的类型top15分布,并使用条形图来展示这些数据。
结果显示,前三名的电影类型分别为爱情、喜剧和犯罪。
六、哪些年代的电影好评度比较高
这个结果似乎并没有什么意义,90年代及以后的高分电影一共占了85%,毕竟随着时代的发展,电影的特效、质量都得到了快速的提升。
七、评分top5的电影类型前面的分析都没有涉及到电影的评分,电影有各种各样的类型,甚至一个电影可以打上好几个类型的标签,那接下来我们就对这些类型标签进行评分统计。
单从电影类型的平均得分来看,灾难片、恐怖片和儿童片位居前三,尽管分别只有3部,2部和12部。
八、评论人数和评分之间的关系抓取的数据表中含有每部电影的评论人数和评分,这两个变量都是数值型变量,我们通过散点图的方式来看看这些电影的评论人数和评分之间是否存在某些隐形的关系呢?
很有意思,从这400多个散点绘制的图形中可以发现,评论人数和评分之间还是存在正相关的关系,即评论的人越多,评分倾向于更高。由于绝大多数电影的评论人数都小于33万,故如果需要建模的话,建议将数据分为两组,分别对两组数据建模。
OK,今天就分享到这吧,感兴趣的朋友,可以照着文章操作一遍,相信对你的R语言有一定的提升或帮助作用。
您可以通过关注小号并回复“电影”获取文章中的数据和脚本。
每天进步一点点2015
学习与分享,取长补短,关注小号!

长按识别二维码 马上关注