定义数据可观察性和数据质量
随着公司从越来越多的来源收集看似无穷无尽的数据流,他们开始积累数据存储、潜在最终用户和管道的生态系统。每增加一层复杂性,数据停机的机会,数据不完整、错误、丢失或不准确的时刻就会成倍增加。因此,数据团队将大部分时间都花在了数据质量问题上,而不是致力于为企业创造收入的活动。
数据可观察性可以定义为包括监控、跟踪和分类事件以防止系统停机的整体视图。同时,数据质量是衡量如何拟合数据集以满足组织特定需求的指标。
数据可观察性和数据质量之间的对比
数据可观察性 基于五个支柱。这些包括;
新鲜
数据管道可能因许多不同的原因而中断,但主要的罪魁祸首之一是新鲜度问题。新鲜度是“我的数据更新了吗?它的新近度是多少?数据没有更新的时候有没有时间漏洞,我需要知道吗?”
分配
分布与您的数据资产的字段级运行状况有关。空值是帮助我们理解字段级别分布的一种方式。例如,如果您期望特定字段的特定百分比无效率然后突然大幅增加,您可能会遇到分配问题。除了空值之外,分布变化的其他测量包括数据资产中预期值的异常表示。
体积
卷是指文件或数据库中的数据数量,它检查您的数据摄入量是否满足预期容量。此外,数量是指数据表的完整性,并提供对数据源健康状况的洞察。
架构
模式是一种由数据库管理系统支持的用正式语言解释的结构。通常,架构更改是数据停机事件的罪魁祸首。例如,字段被添加或删除、更改等,表格被删除或未正确加载。作为数据可观察性的一部分,对您的架构进行审计是一种很好的方式来考虑您的信息状态。
血统
血统有助于讲述有关您的信息状态的故事;例如,在上游,架构更改导致下游表出现新鲜度问题,导致下游另一个表出现分布错误,导致团队使用错误报告得出数据驱动的结论关于他们的产品。
另一方面,数据质量基于六个指标。
完整性
您可以从两个方面考虑完整性:属性级别或记录级别。这可以衡量特定数据集中是否存在所有必需的数据。在记录级别衡量完整性有点复杂,因为并非所有字段都是强制性的。
准确性
您的信息在多大程度上反映了现实世界的对象?在金融领域,数据准确性通常是非黑即白的。它要么不正确,要么准确。这是因为帐户中的英镑和便士的数量是精确的。
一致性
保持不同数据库之间的同步至关重要。然而,为了确保数据每天保持一致,软件系统通常是答案。
有效性
有效性涉及测量数据适应所需值属性的程度。例如,确保日期调整为相同的格式,即日期/月/年或月/日/年。
时效性
时效性显示了数据在特定时间点的准确性。这方面的一个例子是,当客户搬到新房子时,他们是否及时通知银行他们的新地址?很少有人立即这样做,因此会对他们的数据的及时性产生负面影响。不守时也会导致糟糕的决策。
正直
为确保数据完整性,当您的数据在不同系统之间移动时,必须维护我们上面提到的所有数据质量指标。通常,存储在多个系统中的数据会破坏数据完整性。
它们在哪里重叠?
当数据可观察性用于更好的数据质量时,数据可观察性 和数据质量重叠。当组织采用数据可观察性来提高数据质量时,必然会有很好的结果。其中一些包括;
通过在数据异常影响消费者之前获取成本节省 - 当异常发生时,数据可观察性引擎会立即向团队发出警报,以便在问题影响消费者之前有时间调查和解决问题。由于数据工程团队在涉及利益相关者之前就已获知该问题,因此他们可以修复其管道并避免未来的异常情况危及其数据的完整性。
通过跟踪字段级沿袭数据可观察性来改进协作有助于理解依赖关系。
通过密切关注已弃用的数据集来提高生产力——数据可观察性提高了关键数据资产的相关性和使用模式的透明度,并在不同的属性被弃用时通知它们。
通过减少解决令人厌烦的数据防火演习的时间并重新获得对关键决策数据的信任,从而提高成本节约。
更好地组织数据工程和
数据分析师团队,以理解数据资产之间的关键依赖关系。
通过增加对数据资产的健康状况、使用模式和相关性的端到端可见性,提高效率和生产力。
结论
可以得出结论,数据可观察性和数据质量依赖于组织的良好运作。尽管存在差异,但两者以各种方式重叠,有助于更好的数据质量和交付。