一个组织如何在 2020 年代蓬勃发展,这是一个不断变化且令人困惑的时代,具有重要的数据管理需求和平台选项,例如 数据仓库, Hadoop,和云?试图通过包扎和使用相同的旧数据架构来节省资金最终会将数据推上山峰,使其更难使用。重新考虑数据使用、存储和计算是使数据重新受到控制并在最佳技术环境中推动业务和数据战略向前发展的必要步骤。
数据战略公司总裁威廉·麦克奈特(William McKnight) 麦克奈特咨询集团,在他的演讲“数据库、Hadoop 和云存储 ”中 提供了关于最佳数据平台和架构的建议 。DATAVERSITY® 企业在线分析 会议。McKnight 解释说,今天的数据管理需要升级到更适合快速有效地获取所有数据的技术。他说:
“控制所有数据是我经常说的事情。这意味着使数据易于管理、性能良好、可供我们的用户群使用、可信、有利于公司成为数据驱动的。”
处理好数据对于未来变得尤为重要,未来
人工智能 (AI) 将增强业务分析并渗透到运营中。要成功工作,AI 必须具备良好的数据质量训练、测试和使用。此外,这些数据需要涵盖所有类型,而不仅仅是从 Microsoft Excel 生成的典型静态表格和报告。来自呼叫中心记录、聊天日志、流式传感器数据和其他来源的动态数据在支持 AI 计划和业务需求方面发挥着重要作用。
利用人工智能和数据需要超越现在存在的业务报告,了解它们存在的原因以及不同的数据类型(包括半结构化和非结构化数据)如何增强结果。公司通过评估他们的数据架构技术程序与利用数据有关。McKnight 强调,“我一次又一次地看到这种情况:公司为数据支付过高的费用,因为它位于错误的平台上。” 将数据移动到正确的环境中以便更好地操作需要了解各种技术解决方案以及如何将正确的解决方案适应企业的数据架构。
三大决定
McKnight 建议在考虑数据架构的数据平台时做出三个重要决定:
数据存储类型:企业在两种数据存储选项之间进行选择:数据库和基于文件的横向扩展系统利用率。数据库,尤其是关系型数据库,因有组织的数据而蓬勃发展。关系型数据库架构占业务数据解决方案采购的 90% 以上。基于文件的系统,如 Hadoop,可以更好地保存大数据,其中包括非结构化和半结构化数据。
数据存储放置:一旦公司选择了数据存储平台,就需要找到放置它们的地方。选项包括本地或云端,第三方供应商在其数据中心托管公司信息。过去,大多数企业数据通常存储在现场。但随着数据量呈指数级增长,云——尤其是公共云——可以以更少的费用更好地在异地扩展业务数据。
工作负载架构:数据请求各不相同。公司需要实时数据来进行业务运营和短期、频繁的交易,例如销售和库存。公司还需要运营后数据来分析机会并预测和指导执行决策。分析工作负载通常会导致更长、更复杂的查询,需要与操作任务完全不同的数据架构。
使用数据仓库和大数据技术 (Hadoop) 控制数据
麦克奈特认为,两者数据仓库Hadoop 需要考虑到公司的数据架构。许多公司了解使用关系数据库技术组织数据的价值。数据仓库是中型或大型公司的必备品,因为它们提供了一个标准化企业范围数据的共享平台。此外,除了节省一次又一次地重建相同模式的成本之外,还可以搜索、重用和汇总仓库数据。但公司还需要考虑新的非结构化和半结构化数据类型,这需要像 Hadoop 这样的大数据架构。
企业将需要大数据平台 数据科学 和人工智能项目等。数据湖和 Hadoop 在处理大量广泛的企业数据时性能更好、更快、成本更低。企业可能会打折其中一些较新的数据类型,但某些用例需要它们,包括营销活动、欺诈分析、道路交通分析和制造优化。非结构化和半结构化数据已成为必需品,使 Hadoop(和其他数据湖结构)和数据仓库成为业务需求。
云中的分析数据库和数据湖存储
选择数据存储类型后,企业需要找出保存数据的位置。McKnight 将云中的完整数据生命周期视为升级数据管理的业务必要性,主要通过分析数据库和数据湖存储。
McKnight 从去年发布的 12 项基准研究中发现,分析数据库在云中的表现更好。他还解释了其他云分析数据库的好处:
“云现在提供了有吸引力的选项、SQL 稳健性和更好的经济性(即用即付)、物流(简化的行政和管理)和可扩展性(弹性和在几分钟内扩展集群的能力)。”
云分析数据库具有更直接和灵活的架构,可以以更低的成本更好地跟上动态数据。
除了将分析数据库放在云中之外,企业还可以从将数据湖保持为云对象存储. 云对象存储在非分层环境中将离散的数据单元设置在一起。与本地数据中心相比,该技术可以持续扩展并更好地压缩数据,从而降低数据湖存储成本。此外,利用云对象存储的数据湖可以更好地分离“计算”和“存储”,从而提高性能以及调整、扩展或交换计算资源的能力。
并非所有数据都属于云。例如,数据查询和某些类型的数据库在现场工作得更好。尽管数据湖Hadoop 表现出更好的存储性能,它们通过Hadoop分布式文件系统(HDFS)。根据 McKnight 的经验,HDFS 的查询性能比来自云的查询性能好两到三倍。此外,Hadoop 需要一些可以在本地更好地解决的变通办法。因此,根据业务需求,现场放置具有一定的价值。
平衡运营和分析工作负载
虽然数据存储类型和位置在选择平台时起着重要作用,但不同的工作负载也需要不同的架构。运营活动倾向于实时动态发生以保持业务运行。它们需要非常高的性能。另一方面,分析需要快速、复杂和错综复杂的查询来检索高质量信息,帮助企业领导者做出更好的决策。分析任务需要信息搜索快速而彻底地运行。
在这两种情况下,数据仓库都使操作和分析更加高效和强大。McKnight 说:“事实上,就数据管理而言,您可以投入一美元的最重要的地方之一就是数据仓库。” 但是,一种数据仓库架构不再适合所有人。  
数据仓库专门针对特定领域,例如客户体验转型、风险管理或产品创新。即便如此,独立的数据集市——面向主题的存储库对于特定的业务功能,如财务或销售运营——可能需要通过数据仓库来增加工作量。分析工作负载需要具有大量数据库内分析、内存功能、列方向和现代编程语言的数据仓库。为了拥有众多世界中最好的,公司结合了几个不同的数据仓库来最好地满足他们的业务需求。
并非所有运营和分析工作负载都可以通过利基数据仓库来解决,并且可能需要大数据技术来实现更快的功能和分析实时性能。正如 McKnight 所说,这可能意味着将数据湖与分析引擎配对,或者寻找“同时处理业务订单和
机器学习模型,同时具有快速性能和降低复杂性”的混合数据库。因此,像 Hadoop 这样的大数据技术在跨越操作和分析工作负载方面也发挥着重要作用,如图数据库所示。
图数据库利用 NoSQL 环境通过网络或树桥接实体及其属性。快速浏览一下图形数据库可以节省时间和精力,否则会花费在复杂的 SQL 查询上,并提供如 McKnight 所说的“数据中不明显的模式”。在 McKnight 看来,图形数据库的优势在于它们显示的某些信息比数据仓库生成的报告更准确、性能更好。
组织需要了解哪些数据平台可以最好地管理不同的数据工作负载、位置和类型。McKnight 强调,当企业弄清楚如何共同构建数据仓库、Hadoop 和云计算以满足其数据和业务战略需求时,他们将生存并发展壮大。无论公司是计划购买新技术还是使用现有技术,找到合适的方式将这三种工具结合使用,更有可能控制数据。
| 相关帖子DA内容精选 
  大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
 |