随着公司转型为数据驱动的数字企业,劣质和不可靠数据的成本将飙升。将需要数据来支持更多的业务模型、内部流程,并将推动关键业务决策。因此,对数据的访问至关重要,但确保数据的可靠性成为绝对的关键任务。
传统观点认为数据质量监控工具是解决方案。因此,市场上充斥着这些解决方案。然而,随着向分布式、以云为中心的数据基础设施的转变,数据质量监控工具已迅速过时。它们是为早期的应用程序环境设计的,无法扩展,管理起来过于劳动密集,诊断和修复数据质量问题的根本原因太慢,而且在预防未来问题方面毫无希望。
了解数据质量监控工具及其基于警报的被动方法老化如此之差的技术原因非常重要。我认为,具有前瞻性的组织不应选择传统技术,而应着眼于专为现代架构构建的多维数据可观察性平台,以快速修复和预防数据质量问题,并自动保持高数据可靠性。
数据质量:不仅仅是数据错误
让我们从复习一下我们所说的数据质量开始。关于数据质量的最大误解之一是它只意味着干净且无错误的数据。Acceldata Rohit Choudhary 解释说, 数据质量实际上有六个关键方面:
准确性
完整性
一致性
新鲜
有效性
独特性
换句话说,数据可以是无错误的(准确的),但有缺失或冗余的元素(完整性)会妨碍您完成分析工作。或者您的数据可能使用不同的单位或标签存储,从而产生(一致性)问题,对计算造成严重破坏。陈旧和过时的数据(新鲜度)也是如此。或者数据的模式和结构可能因数据集而异。这种缺乏规范化(有效性)可能使您的数据几乎不可能聚合和查询在一起。您希望能够识别数据集中的唯一性,因为它是确定没有重复的最重要的维度。测量数据的唯一性是通过与环境中的其他数据记录进行分析和比较来完成的。
这是一个真实世界的例子,尽管技术上没有错误,但数据质量差却造成严重破坏。1999 年,美国宇航局前往火星的宇宙飞船——火星气候轨道器——由于数据一致性问题而丢失。虽然 NASA 使用公制单位,但其承包商洛克希德马丁公司使用英制单位。结果,洛克希德的软件以磅力计算了轨道器的推力,而美国宇航局的软件使用公制当量牛顿来获取这些数字。这导致美国宇航局的探测器比预期的距离地球更近 100 英里,导致轨道器要么在火星上坠毁,要么飞向太阳(美国宇航局不知道,因为与探测器的通信已经丢失)。这导致美国宇航局 3.276 亿美元 的任务过早结束。
当数据质量还有其他五个关键方面时,太多的数据质量监控工具专注于试图保持数据无错误。解决所有这六个数据质量领域是必不可少的,以确保您的数据不仅生成正确的定量结果,而且还适合用例,并且还可以进行分析。
数据质量监控:防御性和愚蠢
数据质量监控工具已经 存在了几十年,其中一些出现在 80 年代和 90 年代早期的关系数据库和数据仓库中,通常在主数据管理 (MDM) 或数据治理的保护下。多年来,他们中的大多数人采用的方法没有太大变化。首次将数据摄取到数据库或数据仓库中时,就会发现和分析数据。
然后设置一个监控工具来监视存储库,并在检测到问题时向 IT 管理员或数据工程师发送警报。希望 DQ 监控工具能够在 BI 分析师、数据科学家或最糟糕的情况下,在高管打电话抱怨不良数据之前发现问题。无论哪种方式,IT 或数据工程师都会立即采取行动并开始调查以找出数据质量问题的根本原因。
这种被动的方法就是防守。当数据量相对较低、事件很少、数据驱动的流程是面向批处理的而不是关键任务、以及数据工程师可以解决的简单问题时,它运行良好。
不幸的是,这不是当今大多数组织所处的位置。今天的企业在数据中游泳。“一些组织在一周内收集的数据比他们过去一年收集的数据还要多,”乔杜里 在最近接受 Datatechvibe 采访时说。
在缺乏主动确保数据可靠性的工具的情况下,随着数据的供应,不良数据和不可靠数据的事件增加。数据还为更多实时和任务关键型业务流程提供支持。这从推动销售收入(想想通知电子商务客户个性化的网络点击流)到物联网传感器驱动的自动化运输和物流系统,以及游戏、车队管理、社交媒体等领域的更多例子。
此外,今天的数据停机事件更加复杂,通常有多个长期酝酿的原因。在这种情况下,用于解决此类复杂、整体数据质量问题的平均解决时间 (MTTR) 会膨胀。不幸的是,就在公司开始 认真对待 与外部供应商以及内部技术和数据团队执行数据服务水平协议 (SLA) 时。
为什么不良数据是一种流行病
除了数据的 绝对增长之外,还有其他原因导致数据质量问题在数量和范围上都在增长。Choudhary 在 另一篇博客中详述了五个原因:
由于过去十年企业对易于使用的云数据存储和工具的迅速采用,数据管道网络比以往任何时候都更加庞大和复杂。更高的数据速度为数据质量下降创造了更多机会。每次数据通过数据管道时,它都可能被聚合、转换、重组和损坏。
数据可观察性远远超出数据质量监控和警报
由于其复杂性、业务关键性以及它们支持的实时操作,数据管道比以往任何时候都更加脆弱。例如,对数据源的简单元数据更改(例如添加或删除字段、列或数据类型)可能会产生架构漂移,从而无形地破坏下游分析。
数据沿袭也更长, 而它们的文档——跟踪数据来源以及随后如何使用、转换和组合的元数据——没有跟上步伐。这使得用户更难信任数据。当数据质量问题不可避免地出现时,这使得数据工程师更难追查数据质量问题。
传统的数据质量测试是不够的。 首次将数据引入数据仓库时对其进行深入分析已经不够了。有更多的数据管道为更多的数据存储库提供服务。如果没有持续的数据发现和数据质量分析,这些存储库就会变成数据孤岛和暗数据池,隐藏在各种云中,它们的数据质量问题恶化。
数据民主恶化了数据质量和可靠性。 尽管我对低运维云数据工具的兴起以及 由此产生的公民数据科学家和自助式 BI 分析师的出现表示赞赏,但我也相信他们无意中使数据质量问题变得更糟,因为他们总体上缺乏培训和历史知识以始终如一地处理数据。
数据质量的现代解决方案:数据可观察性
数据质量监控工具及其被动、手动和几十年不变的数据质量方法无法应对当今数据高度分布、快速移动甚至变化更快的环境。他们让数据工程师和其他数据运营团队成员忙于日常救火,遭受警觉疲劳,无法满足他们的 SLA。数据质量以及数据性能都受到影响,而数据成本失控。
应用程序性能监控 (APM) 工具 也无法应对挑战。虽然 APM 工具供应商确实承诺提供一种业务可观察性形式,但正如他们的名字所暗示的那样,他们专注于应用程序性能。数据只是 APM 工具的副业。当 APM 工具确实查看数据时,它再次只关注数据 性能,而不是数据质量。
在我们正在进入的实时数据时代,警报为时已晚,缓慢是新的下降。这个时代的解决方案是数据可观察性,它采用 全新的主动式方法来解决数据质量问题,远远超出 简单的数据监控和警报,降低确保数据可靠性的复杂性和成本。
多维数据可观察性平台提供与数据质量监控工具相同的赌注监控。但它确保从每个潜在角度监控数据质量,而不是对任何关键方面漠不关心。此外,数据可观察性假设数据是动态的,而不是静态的。因此,无论数据位于何处或通过其传输的任何数据管道,它都会不断发现和分析您的数据,从而防止数据孤岛并检测数据质量下降的早期信号。最后,数据可观察性平台使用
机器学习来组合和分析围绕数据质量的所有这些历史和当前元数据来源。
这使数据可观察性平台具有四个超级大国:
自动执行诸如数据清理和协调动态数据之类的任务,以防止出现轻微的数据质量问题
减少您的数据工程师收到的误报和其他不必要警报的数量,从而减少警报疲劳和所需的手动数据质量工程工作量
提前预测潜在的主要数据质量问题,使数据工程师能够采取预防措施
提供可行的建议,帮助数据工程师解决数据质量问题,减少 MTTR 和数据停机时间
在更大的业务级别上,数据可观察性可以帮助数据运营团队满足 SLA,从而保持创收数据驱动型业务的正常运行。它还可以通过使企业能够归档未使用的数据并整合和消除冗余数据和流程来显着降低云费用。它还允许将数据工程师从繁琐、无利可图的任务(例如手动清理数据集和排除不可靠数据引起的问题)重新部署到更具战略性的工作,以促进业务发展。
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选