我们这个系列共分为三个部分:数据抓取,数据整理,数据分析应用,前面有一篇帖子已经讲述了数据抓取部分(需要的话可以点我发的帖子或者关注我们微信,帖子里代码有点小错误,应景更改了),这篇文章我们主要讲抓取过来的数据怎么整理,然后我们会发出多篇用抓取过来的数据写就的文章,请大家轻喷。
我们的目的简单,从数据电影属性中分离出上映电影的国家、时间、类型、导演和演员。
首先我们要把上一步抓取的数据读进来:
以上两步可能和你存储的方式有关,filmData是抓取数据存放的csv格式的文件,如果你写入硬盘然后读尽来,会发现多了一列row.names叫做x,这里将他删除。如果你没有写入硬盘则无需删除操作。我们的电影都存放在filmAttri列。
首先我们将属性列提取出来放到sentence里,观察一下发现这些属性是由“/”分开的,那么我们就用strsplit将其分开,然后我们就获得了一个和电影的部数一样长的list,list的每个vector包含一部电影的所有属性,要将电影的名称和属性对上,那么vector有多长,就要重复多少次相应的电影名称,然后我们又新加了一个电影id列,每一个id号对应一部电影,这样做是方便下面操作。
因为有些影片没有国家,有些影片没有时间,所以我们需要第一步删选出国家和时间均不空缺的记录,这就是一个如何实现多次筛选的问题:
以上我们就完成了第一次筛选,我们把缺少年份的电影全部删除了。
上面我们删除了数据框filmAttribute中缺乏年份的电影,同时我们也要把原始数据框filmData里的也给删除了,保持两个数据的电影一致。
以上我们就筛出了年份列,数据框time里一共4列,rowname用来标记电影时间所在的行号,id指具体的电影帮助对应到电影,name指电影的名称,attri下全是电影上映的时间。下面我们要筛出国家,一般一部电影的第一行属性即为国家和地区,当然有些不是,我们暂且把第一行作为国家处理:
在R语言中,duplicated函数返回的是逻辑值TRUE和FALSE,如果某一行第一次出现,他被认为是独特的,duplicated返回的值是FALSE,如果不是第一次出现,则是重复的行,返回的值是TRUE,如果是对一个vector去重,则返回一个逻辑值vector,长度和vector一样。这里我们需要找到每一部电影的第一行,然后提起出来,那么我们加一个!非的操作就可以把每部电影的第一行数据,然后将这行的属性作为国家就行了。
然后我们需要提取电影的类别了,我们发现电影的类别一般在国家和上映时间所在行之间,于是我们之前加的列rowname有用了:
大部分电影国家地区(第一行)和年份之间的部分为电影类型,但是那么多电影也许中间会什么都不隔,所以要先判断一下加以区分,在做这个之前我们要先把缺少国家和地区的电影删除,记得我们前面经过一次筛选,筛出的电影都是含有上映时间的,那么如果一部电影缺少国家,他的第一行肯定是时间,那么时间行和国家行的rowname肯定是相同的,他们的差值为零,我们找出这样的电影将其删除了,就保证了剩下的电影既包含国家又包含上映时间。
在删除之前我们要看一下是不是这样的,结果我们发现x里面的电影确实没有国家这个属性,自然就要把他们删除掉了。
这里你会发现既然删除了一些电影那么我们之前提取的时间也没用了,所以干脆重来一遍,当然如果不重来用匹配也行,于是我们删除了第一列的rowname然后给属性重新编制id列仍然叫做rowname。然后依次提取时间、国家、电影类型等。
#提取时间和国家
再次检验是否存在缺少国家的记录,如果通过则进行提取影片类型的过程:
下面我们要提取电影类型了,一般国家地区和年份之间的行即为影片类型,那么存在两种情况,如果国家地区和年份之间行号差值x小于2,则说明影片没有分类,如果大于等于则说明有分类:
我们得到了电影的上映时间,国家或地区,电影类型等,现在我们先把他们合并在一起了,这里牵涉到你是将数据进行long型数据框摆放还是进行wide型数据框摆放,因为ggplot一般使用long型数据,这里我们进行long型摆放。
到这里我们已经得到电影的部分属性了,下面我们需要提取电影的导演和演员了,我们将我们已经提取的行删掉,就只剩下导演和演员了,一般出现的一个人名即为导演,其后是演员,,所以思路和提取国家时一样,去重得到的就是导演,我们按照这个思路往下走吧。
到这里我们的豆瓣数据电影数据抓取基本告一段落,代码虽然笨虽然长但是理解起来不难。下面我们要规范一下属性的内容,经查看发现国家和地区有些是英文有些是繁体,那么统一一下,幸好地区并不多,我们都懂建一个对应词典叫diqudict就行,yingyu列是要替换的国家英文名、繁体名及其他别称,第二列位统一的称呼。Filmfinal第三列就是属性的列,我们将其重匹配上的不标准行找到,然后用标准的替换掉,这就是一个用其自身匹配,然后又替换掉自身的问题。
其实匹配从来都是一个让人蛋不定的问题,match返回的是x的元素在y中的位置,如果没有就为NA,如果多个就只返回第一个,返回的长度和x等长。经过一次match,这样我们去掉NA,就可以提取对应的字典里的统一的名称,然后将它放在filmfinal相应的位置。如果你看着代码不对,那就是论坛将% in %现实错了,在R里他是一个匹配函数,返回所有能够匹配上的x的编号。
然后有些国家同时出现了中文名称和英文名称,我们也要处理一下,方法就是先将这些记录提出来,然后将英文灭掉,再放回去。
到这里我们发现棒子的电影如果只有韩语名称,是无法正确识别的,我们需要将这部分电影删除:
到这里我们只需要把名称为””的行删除就可以了,但是这里你碰到了麻烦,因为你查不出这个值为””的行,无论是is.na,is.null,is.nan都无法查出,好吧我们用正则表达式来解决吧:
正则表达式\S表示匹配任意不是空白符的字符,那么我将非空白符的行提取出来就行了,自然就把那些””幽灵去掉了,如果你想找到这些幽灵,秩序在grep前面加个-号就行了,如果你用的是grepl就加!号。
最后我们将评分、人数空缺的全部填充为0。
这里我们的R抓取豆瓣数据并整理数据的文章就写完了,下面我们就要展现基于这些数据的有趣的分析文章了,比如我们要看《2015国产电影到底有多糟?》
关于大音如霜工作室
关注理性与文艺,用数据创作内容性的精致阅读。关注请加微信公众号:dayinrushuang或扫描下方二维码