郑维东:收视率与大数据http://www.xmtnews.com/p/2102
虽然对于多大体量的数据才叫大数据并没有确切的界定,但时下行业通用的收视率数据肯定不是大数据。收视率数据是基于有限的确知样本的数据,既不符合大数据的体量巨大特征,也缺少大数据的多样性(也称多变性)和高速率(指数据输入输出的速度)特征。但看向未来,从大数据中采集、抽取和加工出收视率数据却是可能的备受业界关注的一种趋势。
收视率数据是基于用户视频收视行为的数据。所谓收视行为主要包括三个W要素即Who(谁在看)、When(什么时间看)和What(看什么)。现行的收视率调查通过一套完整的技术和运维方案,采集到用户收看电视节目的以上三个W相关变量,并进行统计计算和报告,成为行业通用货币依据。可见要从大数据中生产出收视率,也必须考虑在大数据中寻求或者新建对有关3W变量的数据采集流程。
在当前电视生态系统范畴内,一般认为电视机顶盒(既包括有线数字电视机顶盒,也包括IPTV和OTTTV等网络机顶盒)回路数据,基于移动终端视频消费的回路数据,社交媒体上有关视频分享和用户讨论的数据,以及与在线视频服务有关的ISP 服务器后台数据等,都是可以和收视率产生联系的大数据集。但是要把这些大数据转化和生产出收视率数据,还需要增加一些必须的手段和环节。
首先要确知谁在看,当然这个谁不能用大数据中已包含的IP地址来替代,应该通过二次抽取和定位样本用户个人,形成一定数量的固定样组(panel)来实现。这个过程是把大数据还原成小数据,但是补充了收视率调查必须的用户个体信息以及结构性变量。这些信息和变量又会被反推至大数据总体,所以二次抽取固定样本的方法及其科学性、代表性就至关重要。
其次要实现对任一收视行为的发生时点及其持续时长的数据提取。在上面提到的大数据中,有些系统已内建了这些时间维度的变量,有些系统虽然有时点数据但还缺少诸如收视时长之类的信息,有些系统在统计时间变量方面甚至采取断面拍照,致使数据的时间颗粒度不够精细。这些问题显然都严重制约了从大数据中生产出合乎标准的收视率数据的能力。
第三是要对用户收看的视频内容进行识别。这就要求必须有高质量的内容库编码系统和用户端内容识别系统。从当前视频服务各方的大数据体系看,既缺少高效的统一的内容库编码标准,各系统自行其是;在用户终端内容识别方面所采用的技术和方案也是五花八门,良莠不齐。相比前两个方面,这可能是从大数据中生产收视率数据的更大障碍。
即便以上技术问题都得以解决,哪怕是低标准的替代性解决,也仍然无法回避下一个问题,即如何促成各大数据所有者对数据无私开放和信息共享。收视率天然具有行业通用货币属性。如果各大数据方只基于自身体系发布所谓收视率数据,市场上就会有多个收视率数据主体,互相不能涵盖,互相不能验证,形成利益的争执和纠葛。但是要求这些大数据机构无私分享数据,又似乎触及到其参与市场竞争和保护商业利益的底线。
由此可见,虽然看起来从大数据中生产收视率数据是可行的,但很困难。从收视率行业发展的路径看,以基于有限数据的跨屏监测来扩张传统收视率调查是当下有效的权宜之计。从大数据机构对收视率数据的需求看,也许大数据所能回答的对市场和价值的测评以及对其自身经营的帮助已然超出了收视率的功用,反而不一定非要有个所谓的通用收视率。在收视率与大数据的交互轨道上,收视率何去何从,未定之数够多,还待时日观察。