云数据湖正在迅速发展。我们今天可用的创新且极具成本效益的数据湖方法可用于数据存储、处理和消费,这在几年前是很多人都无法想象的。企业现在有机会利用各种不同的最佳处理引擎、工具和技术来利用他们的数据、探索和分析数据,而无需将其移动到更昂贵的数据仓库中。
数据是当今业务战略的基本要素。无论是为了更深入地了解客户的行为、发现新的市场机会,还是想办法改进运营以提高生产力和降低成本,行业领导者都希望继续将他们的业务转向更有效的数据利用方式。
自然,在从数据中获得价值之前,需要将其存储起来。多年来,各行各业一直依赖本地数据仓库。这些传统方法通常需要大量的前期投资;企业被迫预先购买所需的所有硬件,这通常会导致昂贵的过度配置。本地数据仓库虽然性能出色,但由于存储和计算的架构紧密耦合,扩展成本也很高。如果企业只需要额外的存储容量,他们也被迫购买计算,反之亦然。
在传统的数据仓库中,用户从许多不同的数据库中提取数据,然后对数据进行规范化并为查询和分析做准备。在这种配置中,企业内的不同业务部门可以从不同来源提取数据,然后必须通过使用ETL 流程将其转换为可用的形式。在整个过程中,必须将数据发送到临时数据库,以便与其他数据混合,并转化为数据消费工具可用的专有格式。可以想象,这个过程既复杂又昂贵。
为了提高性能、获得更好的扩展效率并降低传统方法的复杂性,我们开始看到基于云的数据仓库的出现。与传统的本地替代方案相比,这些解决方案是一个明显的改进。它们很容易从小数据量开始并增长。它们为用户提供了一种在数据仓库结构内独立扩展存储和计算的方法。但是,它们仍然只是另一种数据仓库解决方案,因为它们是一个封闭的专有架构。虽然云数据仓库在小规模上并不昂贵,但许多企业发现,随着数据和使用规模的扩大,成本增长速度远快于预期,尤其是在当今数据量、种类和速度呈爆炸式增长的情况下。
精明的企业很快意识到,整个数据仓库的弯路可以完全避免,他们可以直接进入一个现代化的、开放的、云数据湖环境——这个环境不仅给他们最大的自由和灵活性来控制和使用他们的数据但在任何规模下都更具成本效益。那么这是关于什么的呢?从字面上看,这是一个巨大的架构转变,它为数据驱动的企业创造了巨大的价值,因为它允许以更具成本效益的方式存储、处理和使用数据。
效率和成本节约
将新的数据源或系统添加到传统的数据仓库,与这些更改相关的复杂性和成本与当前数据仓库的大小成正比。过去,我们曾经认为,如果我们需要更高的性能,我们只需要向我们的数据基础架构添加更多资源即可。虽然这种解决方案在一段时间内奏效了,但它很快就转化为大量的数据处理费用,并且几乎无法承受不断增长的数据仓库成本。
如今,我们看到的创新可以让您通过在数据之上运行引擎来体验高达 75% 的成本节省,这些引擎不仅可以加速您的查询结果,还可以让您以更灵活的方式使用云资源。这意味着您只需为使用的内容付费,并避免因过度配置和空闲计算而产生的费用。
数据移动——过去的遗物
使用传统或面向云的数据仓库时,最常见的缺陷之一是必须实施脆弱而复杂的 ETL 流程来制作数据副本以满足不同的请求,从而降低端到端数据和分析管道的性能。
数据仓库是由数据提取、转换、混合和集成过程构建的复杂数据管道结构的基本元素,这些过程很容易变得无穷无尽。这些管道的复杂性意味着每次有新的数据请求时,都必须生成和摄取多个数据副本,如果在消费时有更改请求,则此循环将重复。这些传统方法很容易受到变化的影响,因为添加新的数据源是不必要的复杂和不合理的昂贵。
云数据湖环境通过允许您将数据保存在其原始存储位置(即,在 S3 或 ADLS 存储桶中)来解决此问题,从而帮助您节省资金并提高效率。云数据湖环境支持在一个中心位置直接访问您的数据,从而轻松查找数据,同时无需在不同的仓库和数据集市中维护数据副本。
开放性和灵活性
数据有各种各样的形状和大小。开放云数据湖环境的一个主要优势是它们在处理不同格式的数据时的灵活性。使用这种开放方法时,数据可以以 JSON、ORC 或 Parquet 等格式存储。开放文件格式的好处是它们允许您最大限度地减少通过管道重用这些数据的障碍,不像专有格式只能使用软件解决方案的某些服务读取数据,这可能非常昂贵并且有可能成为过时的。
把它包起来!
数据仓库的本质仍然存在一个根本性的潜在问题。无论它们是部署在本地还是在云中,它们都无法应对跟上当今正在创建的惊人速度和各种数据的挑战。它们的封闭架构限制了灵活性和自由度,随着使用规模的扩大,价格昂贵,并且不提供对数据的开放访问以进行最佳处理。虽然数据仓库仍然占有一席之地,并且针对某些用例进行了很好的优化,但企业可以更好地避免云大数据绕道而行,而是将绝大多数数据保存在一个开放且具有成本效益的云数据湖中。
数据移动的消除,以及云数据湖环境提供的开放性、灵活性、效率和成本节约,提供了一种极其强大的自由。精明的企业领导者正在迅速转向这些新技术,以跳过与以数据仓库为中心的架构相关的复杂性和压倒性的价格标签。
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|