如果一项技术不能及时、全面遵循业内标准,或者本身不是技术标准,那么它的影响力也会逐步消退,Hadoop也会面临这样的问题。
Hadoop似乎是全能的,因为它不仅被Google、Yahoo!这样的互联网巨头采用,就连JP Morgan Chase这样的“传统”企业也开始应用。Hadoop的繁荣似乎给人这样一个暗示——不久的将来,就连普通的便利店系统、进销存系统也会因为各类BigData的存在逐步采用Hadoop。
但这十几年的技术市场也揭示了另一个趋势——即便一些技术产品普及广如Windows操作系统,如果它不能及时、全面遵循业内的技术标准,或者本身不是技术标准,那么它的影响力也会逐步消退。Big Data市场快速发展之下,也面临类似的问题,这不是Big Data产品提供商一方的事情,而是关系到能否形成一个围绕Big Data的良性技术市场生态圈的问题,因为这个生态圈还必须考虑到下游应用软件提供商、上游硬件提供商、技术教育和培训商等一系列参与者。没有标准可循将意味着BigData产品提供商的产品可以更加嬗变,可以以自己个体发展需要,为了一部分上下游厂商忽略掉另一批厂商,使得一些新特性成为一批厂商契机的同时成为另一些关联企业的噩梦。
在众多Big Data“诸侯”中,Hadoop似乎成为最受欢迎的一个,不仅被微软、IBM和Oracle认可并集成到新的产品中,同时它也获得了前述一大批互联网巨擘的支持,以Hadoop为蓝本规划Big Data的标准似乎水到渠成,但是…
首先,标准往往在兼顾普遍性的同时,似乎更强调“先动优势”,即便“先来者”可能更加学术化、支持的产品和厂商没有市场上的“明星”备选者丰富,也不影响它成为标准。而Hadoop与他的同台竞技者们似乎都挺“谦让”。
其次,Big Data市场似乎还很年轻,大部分企业应用还是恪守“Don′t buy into the hype(别被这些胡吹的东西骗了)”的原则。即便在美国,根据Forrester Research分析师James Kobielus的研究,只有不1%的机会将Hadoop用于企业生产环境,即便未来1年这个数字将会以2~3倍的速度递增,它仍只是一个“Up-and-Coming”的技术。
再次,Hadoop似乎还没有和标准中最关键的技术要求(例如哪些数据是Big Data,是否需要包括矢量数据,Big Data数据如何表示,Big Data采用何种方式访问等一系列问题)与同行达成一致,因为这些问题事关每个产品的核心技术架构,很可能决定一部分产品的生死。
然后就是到底什么是Hadoop“典型应用”的问题,各个大型Hadoop应用间的区别就好比白天与黑夜一样,我们看到的是各种各样的天才构思,但这些构思之间似乎都太“个性”,尤其在结合结构化数据对Hadoop中大量非结构化数据进行分析和发掘方面,这些解决思路简直就是“火花四溅”。这对于标准制定带来一些困难——到底怎样的分析方式才是应该相对固定下来,变成大家共同遵循的内容呢?
当然,Hadoop面临的这些问题其他竞争产品也在面对,作为当前市场最成功的产品,如果想成为Big Data标准的蓝本产品,最大的风险来自于时间,也就是那些也许正在加利福尼亚、班加罗尔、都柏林、深圳或珠海某个“作坊”里开发的产品,这些“英雄不问出处”的产品一旦面市并被软件巨头们相中,Hadoop的标准之路就会变得坎坷。为了能够“赶时间”成为标准并依托标准长期占据技术优势,Hadoop需要放宽胸怀与其他竞争者协商并包容各家的主要诉求。因为这不仅是它自身的事情,也是Big Data“场外”和“场内”用户的希望。
除此之外,Hadoop的标准之路可能还有一个关键抉择:以怎样的方式成为标准。对于绝大多数用户而言,Big Data只是一个补充,他们需要采用多种技术完成各类商业项目处理。而Hadoop在明确哪些是应该共同支持的Big Data类型之后,是应该“自立山头”还是被现有的数据技术标准“招安”,这就成了软件巨头间的博弈。从最终用户角度看,标准加入方式与使用方式一致也许是不错的选择,但在厂商看来,这个是明显的利益之争。
为了自身和Big Data市场发展考虑,Big Data市场最有力的竞争者Hadoop应该承担起标准蓝本的角色,但它需要通过众多应用尽快成熟起来,想清楚、说明白、立规则。
本文转载于Programmer杂志。