大数据算出来的《纸牌屋》

2669

收藏 2014-09-24

眼下最火的事情莫过于苏格兰和英国离婚没成这件事儿。曾经也有一部美国政治剧火得一塌糊涂——《纸牌屋》，天朝网民将其比作“美国甄嬛传”（虽然政治文明度差得太多，但是还是充分说明了这部剧的热乎程度）。一方面是《纸牌屋》制作精良，班底过硬；而另一方面你看你不知道的是大数据帮助Netflix赚得盆满钵满。
著名导演大卫·芬奇曾拿着《纸牌屋》的改编剧本，找过美国多家电视台，却没有一家敢掏钱，因为谁也说不准一部20年前的老剧是否还有市场。Netflix也有类似的担心，于是进行了“电视剧消费习惯数据库”分析。最终，Netflix发现老剧《纸牌屋》依旧是点播热门，而点播该剧的用户群，也几乎和网站上大卫·芬奇和凯文·史派西的粉丝圈重合，于是决定投资1亿美元重拍，并由大卫·芬奇导演、凯文·史派西主演该剧。

相比传统收视率统计只抽取数千个样本户，“算”出《纸牌屋》的数据库却包含了名副其实的“大数据”。这些数据源自Netflix数年来积累的数据资源。当一位用户通过浏览器登录Netflix账号，Netflix后台技术将用户位置数据、设备数据悄悄地记录下来。
这些记忆代码还包括用户收看过程中所做的收藏、推荐到社交网络等动作。在Netflix看来，暂停、回放、快进、停止等动作都是一个行为，虽然不能确定每个人没有好好看下去是因为尿点到了还是什么，但是每天用户在Netflix上将产生高达3000多万个行为，这就能说明点儿什么了。此外Netflix的订阅用户每天还会给出400万个评分，300万次搜索请求，询问剧集播放时间和设备。这些都被Netflix转化成代码，当作内容生产的元素记录下来。
为了找到分析大数据的方法，Netflix没有少花功夫。首先，千万级别的用户对网站提供的影片给出1至5星的评级，几年下来相关数据的总量超过百亿条。要找准用户推荐新影视剧，识别观众品位需要一个“算法”。
然而要将巨大的数据转化为生产力并非易事。长年以来，为了提高算法精准，Netflix一直举办大型比赛招贤纳士，以此拓宽数据挖掘处理能力。2005年底，Netflix曾开放一数据集，并设立百万美元的奖金(netflix prize)，征集能够使其推荐系统性能上升10％的推荐算法和架构。这个数据集包含了超过48万个匿名用户对大约近2万部电影做的大约10亿次评分。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

leavederhom

2014-9-24 12:14:54

好啊好啊好啊好啊好啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

南宫娜娜

2014-9-24 12:50:19

进来看看

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daazx

2014-9-24 14:49:08

未来，数据就是资产。有人说“用什么Hadoop，你的数据根本不够大”。我觉得说这话的人的思维还没有跟上大数据的发展，大数据时代，大到企业小到个人，每个个体的数据都将非常大，比如个体化医疗（利用个体的数据来生成治疗方案），这个个体的数据都可以达到很大级别，不仅仅人类的基因、表型、每天的生活习惯....都将会变成数据。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lishiqi6677

2014-9-25 21:42:49

什么样的数据才是最好的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群