由 IT 专门管理的提取、转换和加载 (ETL) 技术直到最近一直是用于组合来自多个来源的数据的主要工具,从而为组织提供推动重要业务决策制定的能力。但是,随着自助数据准备的出现,业务用户和主题专家 (SME) 可以自己找到这些见解。
“在某些组织中,每个数据工程师/IT 资源都需要支持数百名业务用户或主题专家,这造成了一个瓶颈,可能会延迟关键业务洞察力的到来,”Farnaz Erfan 说,这意味着 ETL 正在进行中出去?或者两者都有用例吗?Erfan 在最近的一次 DATAVERSITY® 采访中谈到了 ETL 和数据准备之间的异同。
相似之处
她说很多人认为ETL和数据准备是同一件事,因为从概念上讲它们非常相似,并且都解决了相同的问题。原始格式的数据永远无法用于分析或机器学习,这两种工具都将数据转换为一种形状和形式,使其更接近于成为分析或
机器学习等用途的单一事实来源,但它们并不是同样的事情,她说。
差异
ETL 和数据准备的不同之处在于范式的复杂性、所需的准备类型和用户角色——这些差异决定了它们在市场上服务的用例类型。
1. 用户角色
ETL 工具是 25 年前为技术用户创建的,而数据准备工具则面向现代业务用户。“这可能是分析师、销售运营经理、营销经理——业务范围内的许多不同人员都可以使用这些工具,”Erfan 评论道。
提供数据准备工具的供应商倾向于采用可视化的数据呈现形式,类似于 Excel 电子表格,用户可以在工作空间的中心查看数据。这允许非技术用户调查数据质量问题,准备数据,验证它,并查看数据值如何随着不同规则或条件的应用而变化。
2.范式
她说,ETL 依赖于一组预先确定的规则和工作流程。必须事先预测潜在问题,例如拼写错误或多余字符,以便将如何处理这些问题的规则构建到端到端工作流程中。
相反,一个数据准备工具使用内置算法能够在数据通过工作流程时发现和调查数据。“例如,基于机器学习或自然语言处理的算法可以识别拼写不同但实际上相同的事物。”
她举了一个名为“圣。Louis”,以及如何以多种方式输入,或者可能有多个城市名称相同,拼写不同。在 ETL 工作流中,必须提前对遇到每个特定变体的规则进行编程,并且跳过未编程的变体。数据准备工具可以在没有帮助的情况下找到拼写差异,因此用户不必预测每一个可能的变化。她说,该工具可以提示对该城市名称的每个不同变体做出决定,从而提供在使用数据之前改进数据的机会。
“就从中得出的数据质量而言,这是一个巨大的转变,同时也提高了我获取数据的速度。相比之下,ETL 工具要求用户预先确定需要应用的规则并猜测可能的拼写方式。”
3. 数据复杂性
Erfan 在传统的数据管理/ETL 领域开始了她的职业生涯,她说 ETL 的大部分重点仍然是关系数据源,因为它们的强项在于批量加载、表和关系数据源的转换,以及与CRM、Salesforce 和营销应用程序。
数据准备在关系方面以及更复杂的数据类型(如 JSON 或 XML)中仍然很强大,其中存在嵌套的数据结构。数据准备工具将数据扁平化为表格格式,回到非技术用户熟悉的易于理解的 Excel 范例。“你可以清楚地看到整个数据内容,为分析做准备,而不是试图在嵌套结构中理解它,”她说。
数据准备工具的好处
ETL 空间需要一致性和明确定义的结构,或用于发布的多维模型。数据结构的变化需要“回到绘图板”的方法来合并转换,然后必须重新发布数据,从而导致更长的过程。相反,通过使用可以处理整个数据的数据准备解决方案,而不仅仅是样本,机器学习算法处理更多自由形式的数据,因此可以快速完成迭代,从而实现更敏捷的过程。“他们可以在几天内完成,而不是花费几个月的时间,”她说。
最大的好处是数据准备从二凡的角度来看,IT没有瓶颈。相反,为整个组织创建和准备数据资产的负担可以与最终用户分担,方法是为他们提供自行完成的工具和能力。业务团队已经在自己进行可视化和使用仪表板,“那么为什么他们不能在不等待 IT 的情况下自行准备数据进行分析呢?”
成功的步骤
对于一些公司,一个小组或一个人表示需要一个数据准备解决方案. 在其他情况下,它来自组织范围内的数据民主化过程。她说,无论哪种方式,组织的第一步都是根据自己的长期目标来定义“成熟度”。
该过程的适当开始问题可能是:
成熟的步骤是什么?
您想在哪里进行数据准备?
用户会被限制在一个小组中还是协作更重要?
迈向成熟的下一步是自动化。这个阶段的问题可能是:
所有数据准备工作负载都会保持在临时级别吗?
数据准备会保留在少数用户范围内,还是会扩展到提供其他人可以使用的组织范围内的认证数据资产?
数据准备如何与数据目录和现有 BI 工具集成?
交叉点:ETL 与数据准备相遇的地方
二凡认为ETL正处于一个变化点。数据准备解决方案正在扰乱市场,但与此同时,“ETL 和 BI 公司也在增加数据准备,因为这是他们在市场上看到的需求,”她说。在许多情况下,ETL 解决方案仍然是最佳选择,特别是对于数十亿行数据被转换并批量加载到数据仓库中的用例,以及作业必须每天自动运行且不改变存储方案的用例。数据。“可预测和可重复的事情会通过 ETL 工作流程。”
一个交叉领域是 ETL 和可视化工具之间。例如,平台内的嵌入式目录很重要,它是业务团队可以使用经过认证的数据资产的地方。“你仍然有你的 ETL,但你也有你的数据可视化工具。” 一般来说,数据准备工具可以填补 ETL 和可视化工具之间的空白,满足 IT 之外的业务用户的数据调查和准备需求。
她引用的另一个用例是使用数据准备工具来通知使用 ETL 进行批量加载转换的编程逻辑。“这有点像设计平台,如果你愿意的话,可以为现有的 ETL 流程添加新的源代码。”
帕克萨塔
帕克萨塔在自助数据准备领域一直很重要,将其创建为一个新的产品类别。该公司成立的目标是为业务团队和主题专家提供与技术和 IT 团队相同的能力。该产品基于自助数据准备的概念,个人分析师可以在其中获取和混合数据。随着工作负载增长到企业级别,治理和自动化变得重要,并且平台能够随着不断变化的优先级而扩展。
Erfan 说:“随着您的成长,您如何确保您的数据准备在您设想的所有用例中与您一起成长?关注这一点对于做出正确的投资至关重要。”
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|