为什么您的企业需要数据仓库
众所周知,您需要合适的工具来完成这项工作。只需问一个用螺丝刀组装家具的人,他们为电钻要付多少钱。
处理数据也是如此。
如今,许多公司都致力于
机器学习,高级分析或其他流行术语的开发,目的是领先于竞争对手。但是,如果对数据可以为他们的组织做什么,如何有效地存储和利用数据以及对这些努力采取战略性的,刻意的方法缺乏深刻的了解,那么他们的努力可能会带来弊大于利的结果。
那么,对于希望从其数据中汲取见解的公司而言,什么是正确的工具?数据仓库,它是支持报表,分析和其他高级用例的最健壮和可持续的工具。
什么是数据仓库?基本定义和关键概念
数据仓库,也称为企业数据仓库(EDW),只是一个旨在支持
数据分析和报告的系统。EDW充当组织用于集成数据的中央仓库(即,从多个来源合并的数据,因此最终用户可以轻松地获得重要公司数据的单一,可理解,可用的视图)。
数据仓库旨在容纳组织的完整且统一的信息存储库。您可以从中提取关键业务数据以做出明智的决策。数据仓库无非是通过强大且可扩展的基础架构来现代化公司数据使用。
数据仓库的内容可能来自公司的操作系统(ERP,Historian,PI System等),财务系统,交易系统,关系数据库以及各种其他来源。
该数据通常同时包括最新数据和历史数据,内部用户都可以访问所有这些数据来构建分析报告。公司决策者,分析师和数据专家尤其需要快速有效地访问始终如一的可靠公司数据,而这正是数据仓库旨在提供的。
。
数据仓库如何工作
。
让我们深入研究有关数据仓库功能的更多技术细节,以阐明它们所代表的深远业务潜力。
数据仓库保留所有原始或源数据的副本。这很关键,因为它允许组织:
从多个位置收集数据并将其保存为单个数据库和数据模型;
通过保护面向客户的数据库免受大型,长期运行的分析查询的影响,提高交易处理系统的效率;
通过确保整合来自不同来源的数据,使利益相关者可以集中查看您的数据;
通过一致的编码和描述,纠正有问题的数据以及对重复数据进行分类和减少,来最大化组织数据的质量和可用性;
即使从源交易系统中清除了数据,也要保持完整的数据历史记录;
格式化或重组数据,以便更轻松地使用它并提高查询性能,无论多么复杂,都不会损害操作系统的有效性;和,
通过维护单一,准确和最新的数据真相来源,提高运营业务应用程序的质量,尤其是客户关系管理系统(CRM)。
数据仓库的典型架构组件
。
数据仓库通常在提取,转换,加载(ETL)的基础上进行操作,并且在此过程中通常采用分段,数据集成和访问层。关键层包括:
暂存层 (或暂存数据库),其中包含从所有组织源数据系统中提取的原始数据;
集成层,将多个数据集组合在一起;然后,可以将这些集成数据移动到运营数据存储(ODS)数据库中;
数据仓库数据库,其中将集成数据放入层次结构组(或维度),事实和汇总事实中;和,
将 分层组放在一起的访问层。
一旦数据被集成和分类,指定的业务用户便可以对其进行挖掘,以支持各种分析,研究项目以及决策和战略规划。
使数据仓库如此可靠的准确性的部分原因是它们所包含的数据无法更改。这样可以确保用户可以准确跟踪随时间变化的数据;它还使创建和维护准确的数据字典(数据库文件的完整列表)成为可能。正确,最新的数据字典是数据仓库提取,分析,转换和加载数据的关键手段之一。
数据仓库体系结构的概述使我们对数据仓库有了更完整的定义。一个强大的,具有战略重点的数据仓库不仅包括提取,转换和加载数据的工具,转换数据的层以及组织数据的字典。它还包括管理和检索元数据的工具以及支持和反映组织独特需求的商业智能工具。
如何建立资料仓库
。
根据每个组织的需求,数据仓库体系结构的复杂性差异很大。但是,必须使用以下步骤来构建所有数据仓库:
查找您的数据。您必须从公司的每个角落以及任何相关外部来源收集大量数据。
清理您的数据。扫描数据中的错误,遗漏和重复项;进行适当的更正和删除。
将数据从数据库转换为仓库格式,使其变为只读。
排序,合并和汇总数据。这不仅将确保它的准确性和完整性,而且还将确保最重要的是易于研究和使用。
每当您添加更多数据或任何数据源被修改时,都会重复此过程。
流行的数据仓库架构
。
共有三种主要的数据仓库表格;组织采用哪种架构方法反映了变量,例如规模,业务范围和当前的公司数据设置。
基本数据仓库。这种简单的格式允许用户运行简单或直接的查询,例如“八月销售”或“第二季度增加的新客户”。在这种情况下,完成此类查询的速度(也称为访问,延迟或联机分析处理(OLAP))的速度至关重要。
具有暂存区的数据仓库。这对于数据仓库整合大量重要但多样的业务数据源至关重要。暂存区使数据清理更容易,并且可以更准确地集成或合并来自各种来源的数据。
具有暂存区和数据集市的数据仓库。这就是未来,但是您可以立即建立一个未来。数据集市使组织中的不同组可以访问他们所需的特定信息,这将使它们的特定重点(例如,销售或OpEx)和较大的组织同时受益。
因此,公司规模越大,越复杂,从具有暂存区和数据集市的数据仓库中获益越多。所有数据仓库都回答数据查询,因此,较小的组织或具有单个数据源的组织也将从采用数据仓库方法中受益。但是,确切地说,数据集市是什么?
数据集市,数据湖和数据库呢?它们有何不同?
有很多可用的数据排序,存储和访问选项。对您的业务最有利的取决于您使用数据的目的。
数据集市。如前所述,数据集市是数据仓库的一部分,通常旨在为团队,团队或业务部门提供所需的特定信息。它们也被称为小型数据仓库,它们既可以缩短本已低延迟的数据仓库中的响应时间,又可以确保查询足够集中以对最终用户有用。
数据湖。数据湖只是装满无组织,未分类数据的存储库。它们通常有助于收集尚不知道其价值的数据。Data Lake数据可能无法清除,纠正或重复数据删除;数据湖分析查询对于诸如机器学习之类的应用很有用,对于希望获得可用的,可信赖的业务见解的用户而言,结果可能会很差。
数据库。数据库记录频繁的事务,并提供对特定的重复性业务事务的快速访问。尽管设计成擅长接收数据,但数据库并不是仅仅作为获取见解的来源而构建的。
用例:数据仓库与数据库
。
由于数据集市是数据仓库的子集,并位于其中。并且由于数据湖(例如数据库)不会筛选,组织,清理或集成数据,因此我们现在将仅考虑数据库和数据仓库的用例。
从数据库中提取的用于分析的数据通常用于简单的日常交易,例如:
显示每天通过机器处理的吨数;
医院工作人员收治或登记患者;和,
记录工作现场的工作时间。
数据库是相对基本的工具。数据库的主要功能是准确高效地记录数据,有时甚至是非常大量的数据,仅此而已。为了维持这种简单的功能,通常需要在架构上进行权衡,这些权衡会限制组织访问,使用和分析其自身数据的能力。
相反,数据仓库是为了支持更复杂的活动而设计的,例如:
旨在做出明智的,明智的业务决策的高级报告和分析;
从许多可能庞大和/或断开连接的数据库中挖掘当前或将来需求的数据;
为市场研究目的而深入分析大量数据;
分析内部和客户的用户行为,以调整销售和营销策略,或改善流程和协作;要么,
通过报告,临时查询或自动决策获得可用的独特见解。
考虑一下Wonderware Historian,它是一个从多个工业来源捕获各种传感器数据的数据库。一家矿业公司可以使用数据仓库来整合多个数据源(其中包括Historian等);分析师可以向该新填充的数据仓库查询特定请求,例如采矿公司的主破碎机每天处理少于3000吨的清单。
从业务的角度来看,数据仓库不仅可以比单独的数据库做更多的事情,还可以与其他以业务为中心的工具相连接,从而为组织带来更大的竞争价值。例如,诸如采矿公司可衡量的破碎机生产率之类的特定要求可以汇总到其他工具中,例如仪表板 或更复杂的模型。
这就是为什么您需要数据仓库的原因
。
我们希望现在很清楚,在竞争激烈且瞬息万变的业务环境中运行数据驱动的组织,数据仓库(适当时带有数据集市)是最可靠的获胜方法。
数据仓库为企业存储和访问结构化数据提供了最可靠,最准确的方法。反过来,这可以通过报告,仪表板和分析工具改善跨组织的数据访问。由于它们知道自己的数据是可信赖的,因此它们可以帮助企业更好地监控性能并改善决策。这开始了一个良性循环:
考虑这种假设情况(在现实世界中非常普遍):组织X拥有大量数据,但很难访问。生成报告需要花费很长时间,最终用户不一定会信任结果。也许季度末报告不一致,或者显然缺少公司较大数据难题中的一部分。这种报告不足只会增加整个组织的摩擦,包括数据,社交,协作,工作流等。
事情不需要这样。考虑相反的情况;Z公司已建立了一个数据仓库,每个人都知道他们可以在需要时准确,轻松地访问数据。在这样的公司中发生的事情是,用户将阅读自动生成的报告,并激起了他们的兴趣,最终开始要求更多。他们将意识到获得可用的公司和/或部门数据非常容易,并将开始进行实验-改善运营,提供更好的客户洞察力或节省资金,仅举几例。这将鼓励大胆的活动,并最终改变业务。
拥有敬业的数据仓库团队的组织可以从产品开发,市场营销,定价,生产过程和历史分析,到预测,员工组织和客户满意度,从各个方面计划和领先于对数据不太熟悉的竞争对手。简而言之,他们可以在其他人失败的地方蓬勃发展。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!