我与同事安妮·布弗最近关于数据湖的辩论可能已经结束,但许多公司中关于这方面的讨论才刚刚开始。我们在争论中学到的是——你可能会在自己的公司里发现这一点——数据湖在大数据时代里促使了关于管理不断增长的数据量的大讨论。随着大数据技术在近几年的突飞猛进,各公司不得不再次关注潜在技术以支持他们的数据收集、处理、存储和分析活动。而现在,基于Hadoop的数据湖恰好是一个非常流行的选择。
关于数据湖
在我们转向讨论“发展数据湖或者不发展”之前,让我们对数据湖是什么下个定义。我们在争论中所用的定义如下:
数据湖泊是保存在本机格式的原始数据,包括结构化,半结构化和非结构化数据的海量存储库。除非数据是必要的,该数据的结构和要求都无法确定。
James Dixon,他自封为Pentaho的首席极客,创造了数据湖这个词并这样描述它:
如果你把一个数据集看做是一个瓶装水店——清洗、包装和结构都为了方便使用——数据湖就是一个在更自然状态下的大的水体。数据湖的内容从一个源流注入湖中,而且湖中的各种用户可以来考察、潜水或者提取样品。
对数据湖进行SWOT分析
为了有助于使讨论更加平衡,我使用的是“臭名昭著”的SWOT分析图表,以确定一些与数据湖相关联的关键因素。
优势
低成本。一个基于Hadoop的数据湖在很大程度上依赖于开源软件,旨在为低成本的商品硬件上运行。所以从软件和硬件的观点来看,巨大的成本节省无法被忽略。
一站式数据购买。Hadoop是无偏倚的数据。它将存储和处理所有种类的数据——结构化、半结构化和非结构化数据——只花费你现有的传统的系统的一小部分成本和时间。在同一个位置拥有全部(或大部分)数据会获得很多益处——混合和匹配数据集的数量将是前所未有的。
劣势
数据管理。我们可以滔滔不绝地说起大数据的数量,种类和速度,但与这种讨论同样重要的是能够管理和控制这一切,无论基础技术如何。对于一个基于Hadoop的数据湖,开源项目和供应商产品都需要不断发展成熟,以满足这一不断增长的需求。我们正在朝着正确的方向——迅速——而努力,但我们还没有完成目标。
安全。基于Hadoop的安全性一直是一个长期的问题,但开源社区和厂商为满足公司的安全和隐私要求,也作出了巨大的努力并取得显著的进步。虽然很容易看出这一特定的“软肋”,但重要的是认识到每周(几乎每天)的报告中我们听到这那关于数据泄露的消息主要是对现有的传统系统的攻击,而非这些更新的大数据系统。
机遇
发现。这个特征允许用户去发现“未知的未知”。现有的数据仓库中,用户在他们能问的问题和得到的答案两方面都受限制,与此不同的是,一个基于Hadoop的数据湖是不受任何限制的。用户可以去数据湖问他在数据仓库中遇到的同样的问题,他会得到相同,甚至更好的答案。但他也可以发现以前未知的问题,由此带动了更多的答案,以及更理想的和更好的见解。
高级分析。很多软件应用程序包括描述分析,为用户展示关于“发生了什么”的更漂亮的视觉效果。我们拥有这种能力已经有好几十年了。然而,随着大数据时代的到来,企业需要更高级的分析,诸如规定、预测和诊断,来真正在游戏中领先(并且工科甚至可以反对一直停在游戏之中)。一个基于Hadoop的数据湖提供了这项机会。
挑战
现状。这并不是一个新的威胁,尤其是对软件供应商,但它是一个非常现实的威胁。迁移对这些新的大数据技术所需的成本和时间是不可忽视的。这不是没有人看的热交换技术的例子。如果使用得当,这也将影响到人员、流程和你的公司文化。
技能。毫无疑问,对大数据技术来讲有一个技术短缺的情况。即使这个不足可以被看作是对采用Hadoop的一种威胁,它也不应该被看作是一个负面影响。这些大数据技术是新生的,它们在不断演化之中,而且有很多实验将会去弄清楚什么是需要的,什么不是,什么应该坚持,什么不应该等等。因此,毫不惊讶的是随着我们的技术发展,我们所需的技能也会发展起来。我们有机会将已有的和已知的领域带向新高度,并且有助于培养下一代在我们的数据饱和社会创先争优。
总结
关于数据湖,有一些众所周知的劣势和威胁,其中有一些我已经在这里强调。我们不能忽略这些。但是仍然有很明显的优势和机遇等待我们去探索。如果一家公司想要充分利用它的所有数据,那么数据湖可以帮助你做到。但别忘了定下心来去研究!
原文作者:Tamara Dull,本文由CDA数据分析研究院Cecilia翻译,更多内容敬请关注