伊尔凡•汗(Irfan Khan)SAP旗下赛贝斯公司(Sybase)首席技术官。
暴风骤雨再次侵袭。这次降临的是“大数据”,首当其冲的是IT部门。但就像“四眼天鸡”(Chicken Little)与外星人,“大数据”的故事纯属虚构,它是一个巨大的谎言。
就像一个街谈巷议的传闻,不管你走到哪儿,关于“大数据”的讨论无处不在。将这个短语拿到谷歌(Google)上一搜,你将得到超过13亿个结果。它甚至还在维基百科(Wikipedia)拥有自己的条目。数据的泛滥使很多人相信,企业将因此不堪重负。但这并不是说企业内部的信息量就不受影响——内部信息自然也逃不过不断增长的命运。然而,大数据一直以来都是一个问题。
尽管不断有人声称数据的洪流将带来厄运,但计算机行业始终都得以推翻这些重复出现的信息世界末日预言,通过改善计算基础设施,使它们速度更快、容量更大、价格更便宜、体积更小。
对更多数据的需求
今天,通过使用柱状数据分析基础设施,企业可以对大数据引发的焦虑置之不理,以开放的姿态接受大数据,使其服务于公司利益。在一个柱状架构的数据仓库中,庞大的数据集随时都可以被调用分析,即便是那些包含非结构化数据等各种数据类型的数据集。它们不仅时刻待命,而且能够更快地被执行,并且可以应任务所需随时扩容以纳入尽可能多的用户和数据。
这种做法其实就是找出企业内外的大数据,并利用它提取有价值的情报供企业所用。它的目的是使企业更灵活、更具竞争力和盈利能力。
在着手部署一个分析数据仓库时,找到符合质量要求的数据是其中最重要步骤之一。用于把关数据质量的相关手段已经成熟——从数据净化到数据管理总策略的采用。在力求获取最优质数据的过程中,还要对这些重要的步骤实施公司内部审核。
· 数据延迟:要考虑到公司内部数据延迟的三个层面:数据发生时机、事件延续时间、决策所需时间。
· 数据关联:与商业用户合作以确定数据的前后关系,在使用中的多个数据集之间建立联系,同时不要忘了考虑数据增长率以及重复来源。
· 自助使用:在不影响IT或其他资源的情况下,针对高级用户将如何控制用于查询的数据制定完善的机制。
· 首席数据官:指定一名高级职员担任首席数据官的职务,使其能够在维持公司治理的同时保证数据的可操作性。
数据质量的重要性再强调也不过分。以comScore为例,这家为电子商务市场提供分析服务和解决方案的云计算公司在开始运营时就意识到,网络营销的重点正从访客数转向盈利性。comScore的“客户知识平台”(Customer Knowledge Platform)就顾客在访问整个互联网时的行为与偏好提供了全方位的观察视角。该服务追踪所有自愿提供互联网行为以供分析的用户,记录他们在各个网站的冲浪以及购买行为。
随着数以百万计的网络用户注册该服务接受监测,comScore收集到了海量的数据。事实上,comScore所分析的压缩数据达到40 TB,同时每周都会新增接近150GB。尽管数据量如此巨大,查询响应时间却不需要很长。comScore工程副总裁里克·埃勒特(Ric Elert)表示,由于上述原因,“我们得以更加迅速地挖掘数据,并为客户提供结果。这有助于他们更加高效地进行营销,从而催生更多的业务。”
此外,使用列存储技术,该公司实现了40%的压缩率。若使用传统方法,comScore表示,其存储成本会高得多。“压缩对我们而言至关重要,因为我们拥有海量的数据,”数据仓库副总裁斯科特·史密斯(Scott Smith)表示,“我们有巨大的数据储量。大多数人都没有见过如此庞大的数据。”
在西班牙,埃特尔-沃达丰(Airtel Vodafone)的列存储数据仓库根据该公司的业务地图对数据进行组织。尽管很多不同的部门都使用同样的数据,但信息的一致性和完整性仍然得以保持。数据仓库将数据转换成知识,通过一个接口,将现实世界中的事实转化为有价值的商业情报。准确分析和预测客户活动的能力是埃特尔-沃达丰公司整体业务战略的关键。
柱状数据仓库允许人们根据工作流程需要获取信息,而不是按照企业的层级结构,提高了员工的工作效率和有效性。这意味着,例如,从事市场营销的用户与从事财务工作的用户使用的是相同的信息,只是他们接触数据的角度存在差别,并将其用于不同的分析。数据仓库的工作平台包含了市场营销数据库、呼叫系统、客户服务、全球移动通信系统统计数据、开票系统、收集与检索,以及所有的后勤管理信息。
埃特尔-沃达丰如今拥有一个理想的运行环境以满足各种需求,从而使存储在各种运行环境中的数据实现快速的低成本集成。因此,它可以径直从数据仓库平台中调用有关公司活动或详细或归纳性的信息。基于列存储的数据仓库使埃特尔-沃达丰公司赢得了市场份额,成为欧洲电信业中的一方诸侯。
“大数据”不能成为分析行业的借口
大数据不能成为当今分析行业不上进的理由。扩大分析数据仓库以容纳数以千计的用户也好,对来自各种奇特来源的各类数据(如来自社交媒体网站的海量非结构化信息)进行分析也罢,它们都没有逃脱的借口。不要再躲避了,分析行业再也不能躲在“大数据”这个吓人的怪物之后,因为我们知道它只不过是一个传说,一个天大的谎言。
伊尔凡•汗(Irfan Khan)SAP旗下赛贝斯公司(Sybase)首席技术官。