想象一个组织试图对组织的信息及其资产周围的数据实例建立单一的理解。从不同的角度和不同的原因考虑为这个模型做出贡献和使用的不同人群。并在数据治理、数据架构或商业智能的背景下查看这一点。看似简单的任务变得复杂六个盲人建立大象模型。每个盲人对大象都有不同的看法。这类似于分散在组织中的利益相关者和员工,他们对数据治理有不同的概念和实施。
结果,许多组织最终形成了根本不同的知识孤岛,由不同的群体拥有并用于不同的目的。这给数据治理很重要的组织带来了风险和成本。数据架构师位于此中心,通常拥有最成熟、最详细的信息和数据视图。然而,数据架构师很难将孤岛和相关团队联合起来。
Jamie Knowles,产品经理伊德拉,听过数据架构师的痛点。在最近的一次 DATAVERSITY® 采访中,Knowles 讨论了整合不同数据治理观点的挑战。他就数据架构师如何将数据治理简化为组织信息生态系统的企业视图提供了建议。
数据治理的三种不同实现
Knowles 认为数据治理的问题源于“部落”之间的不同活动。每个部落都认为他们关心组织的信息和数据的知识。
第一个部落在 IT 内部工作,传统上为信息和数据. 他们认识到,组织需要将信息和数据概念连接到单个数据模型中。输入数据架构师与传统的逻辑和物理数据模型。根据诺尔斯的说法:
“数据架构师将用户和消费者对信息的感知与技术联系起来。过去,数据架构师构建逻辑数据模型来理解信息并使用它们来记录和设计作为物理数据模型保存的数据库。他们将管理具有丰富宝贵知识的定义明确的模型。”
第二个部落是较新的,是一个负责数据治理的强大团体。该组通常驻留在 IT 之外,并在首席数据官等 C 级组内部或附近拥有领导权。
“数据治理部落根据组织的价值观及其重要性为每个人都需要了解开展业务的概念提供标准。例如,他们需要明确定义客户对企业的意义,适用于他们的规则。这包括订单、员工、地址和产品等相关概念”
数据治理部落由一个数据管理员网络组成,他们将信息分类为业务术语并将业务所有者分配给这些概念。数据管理者和所有者对业务信息负责,包括属性、规则、质量和要求。业务词汇表以一致的含义共享此企业词汇。
第三个部落是支持数据治理部落的数据部落:
“数据部落处理数据,这是构成组织所需信息的原材料。这包括文档、数据库和平面文件。这种数据视角将数据治理设想为数据资产列表,其中包含围绕构成信息的成分的技术元数据清单。”
数据部落建立数据保管人,通常是 IT 或运营,以处理数据治理。数据保管人记录资产结构、可访问性和安全细节。他们还捕获数据质量,并记录技术使用情况。所有这些信息都保存在数据字典中。数据保管人将其数据资产在数据字典中与业务词汇表进行分类,形成一个数据目录,旨在更轻松地在可用数据集中进行搜索。
第四个也是最后一个部落关注
数据分析,为组织提供洞察力。这是关注数据仓库、数据湖和分析工具的商业智能部落。
“商业智能部落面临着提供准确数据以解决组织问题的挑战。了解他们拥有哪些数据、数据位于何处以及数据的上下文和质量至关重要。他们的目标是快速有效地向消费者提供优质数据。他们还需要了解适用于数据的规则。”
诺尔斯看到每个部落都在运作数据治理分开,不同步。
统一的信息生态系统
数据治理工具集需要将来自不同部落使用的不同工具的主要数据模型类型中的信息和数据结合到整个组织中的连续标准化数据治理模型中。这种单一的观点在实践中很少见。诺尔斯说:
“我们的客户有不同的工具。他们可能有科利布拉或者信息学拥有业务词汇表。数据编目工具也可能存在于那里的某个地方或与另一个供应商一起存在。将所有这些知识体系整合在一起至关重要。我们希望允许人员和工具在这种单一的理解中进行协作。”
传统上,数据架构师创建了用于设计数据库、整合一些数据系统或迁移到新技术的逻辑模型。考虑一个组织通过云上的 Snowflake 将数据移动到全新的闪亮数据系统或数据仓库。这需要在数据治理框架内完成。将敏感数据转移到国外可能会产生法律和安全隐患。需要很好地理解这个数据系统的内容,并考虑与之相关的规则。如果它是一个数据仓库,那么需要将数据连同其质量和上下文一起发布给消费者。
进入IDERA 的 ER/Studio 平台. 根据 Knowles 的说法,ER/Studio 负责标准的数据架构任务,使用数据模型来记录和设计新的和修改的数据资产。此外,ER/Studio 作为工具集促进了数据治理管理。用户可以建三个数据治理文档中的一个或多个:业务词汇表、逻辑数据模型和数据目录。ER/Studio 的独特之处在于它允许数据架构师成为将这些模型连接到一个工具集中的统一过程的核心。
扩展能力以统一数据治理
Knowles 发现 ER/Studio 在一个地方简化了信息、逻辑和物理数据治理实施,同时执行典型的数据架构任务,例如记录如何以及在何处将数据放入平台。Knowles 和 IDERA 计划将这些功能进一步提升通过使数据治理集成更易于访问。
来年,ER/Studio 将从业务词汇表开始扩展其数据治理功能。
高级本体支持: IDERA 了解作为业务词汇表术语保存的信息模型可能会综合成一个本体,其中包含分类法的分类概念。诺尔斯说:
“人们可能会形成一个人的概念,其中客户、员工和员工是不同的类型,每个类型都有子类型。在这里,业务词汇表形成了一个分类树。但也有人在更广泛的本体中考虑客户。例如,可以将订购产品的人视为订购产品的客户。在这种情况下,客户具有我们需要了解的特定属性、规则和约束。”
ER/Studio 在其业务词汇表工具中具有分类功能。IDERA 计划向业务词汇表添加功能,以可视化本体模型并轻松查找重要信息及其所在位置。这些可视化将允许用户探索本体论然后是如何将这些信息实现为数据资产。用户将能够提出导入问题“哪些信息对我们很重要?” “这有什么关系?” 它在哪里?”
Data Architect 中的数据分类:正如我们所描述的,数据治理的核心部分是将信息模型与数据资产的知识联系起来。数据架构师是提供有关这方面的人类知识以支持其他流(例如用于人工智能和
机器学习的组件)的关键。ER/Studio 将提供更好的功能来在他们用于核心任务的工具中执行此分类过程。Knowles 强调了以这种方式使用数据架构师的重要性,因为他们拥有独特的资产知识和经验。
业务术语收获:此功能使用逻辑模型。“基于逻辑模型中极其宝贵的知识资本,组织可以生成业务术语列表、它们的定义和关系来播种他们的业务词汇表,”Knowles 说。
除了连接其他数据治理平台外,IDERA 还将增加对 ER/Studio 中数据库平台的支持。其中包括最近对雪花和Azure SQL 数据仓库 Synapse,除了增强 Microsoft SQL Server 的功能外。最后,ER/Studio 将对支持的平台进行改进,以与云数据库集成,并增强其用户界面、性能和安全性。与领先的整合哪里风景产品(IDERA的母公司拥有,伊德拉公司.) 也是关键,能够提供从请求信息到通过仓库采购、准备和交付的无缝旅程。
Knowles 提醒说,根据部落的观点和知识,数据治理计划采取多种形式。一组可以创建数据词汇表,而另一组可以创建数据目录等,就像盲人为大象建模一样。这会给组织带来风险。为了降低这种风险,这些对信息和数据的不同理解需要在数据治理生态系统中共同运作。