数据质量-您的测量有误
我们的一位客户最近提出了这个问题:
“我想为自己[数据团队]建立一个OKR,以围绕数据可用性。我想建立一个单一的KPI,以总结可用性,新鲜度和质量。
最好的方法是什么?”
我不能告诉你这个要求给我带来了多少欢乐。作为一个痴迷于数据可用性的人-是的,您没看错:这些天,我不再是绵羊,而是梦想着空值和数据新鲜度-这是一个梦想成真。
为什么这么重要?
如果您正在使用数据,那么您当前正在处理一个数据质量项目,或者只是打包一个。这是不良数据的定律–总是有更多的数据。
传统的测量数据质量的方法通常是时间和资源密集型的,涉及多个变量,从准确性(不费吹灰之力)和完整性,到有效性和及时性(在数据中,没有时下流行的东西)。但是,好消息是有更好的方法来处理数据质量。
数据停机时间(您的数据不完整,错误,丢失或不准确的时间段)对于任何努力以数据为导向的公司来说都是一项重要的衡量标准。听起来有些陈词滥调,但这是事实–我们努力收集,跟踪和使用数据,但是通常我们不知道数据是否准确。实际上,公司最终往往拥有出色的数据管道,但数据却很糟糕。那么,如果最终无法真正使用数据,那么建立一个有价值的数据架构所需要付出的全部努力是什么?
通过测量数据停机时间, 这个简单的公式将帮助您确定数据的可靠性,使您有信心使用或丢失数据。
因此,您想要一个KPI吗?
总体而言,数据停机时间取决于以下因素:
数据事件数(N) -考虑到您依赖团队“外部”数据源,这个因素并不总是可以控制的,但它肯定是数据正常运行时间的驱动力。
检测时间(TTD) -发生事件时,您会多快收到警报?在极端情况下,如果您没有适当的检测方法,则可以在几个月内测量此数量。不良数据造成的无声错误可能会导致代价高昂的决策,并对您的公司和客户产生影响。
解决时间(TTR) -在已知事件之后,您能够多快解决该事件?
通过这种方法,数据事件是指数据产品(例如,Looker报表)“不正确”的情况,这可能是许多根本原因造成的,包括:
所有/部分数据不够及时
全部/部分数据丢失/重复
某些字段缺失/不正确
以下是一些非数据事件的示例:
计划的架构更改,不会“破坏”任何下游数据
由于有意更改数据系统(弃用)而停止更新的表
综上所述,我建议用于数据停机的正确KPI是:
数据停机时间=数据事件数x
(检测时间+解决时间)
(如果要进一步提高此KPI,还可以按严重性对事件进行分类,并根据严重性级别对举重正常运行时间进行分类,但是为了简单起见,我们将其保存在以后的文章中。)
结合自动化,高级检测和无缝解析的正确组合,您可以通过减少TTD和TTR来最大程度地减少数据停机时间。甚至还有减少N的方法,我们将在以后的文章中讨论(破坏者:首先要获得正确的可见性以防止数据事件)。
测量数据停机时间是了解数据质量的第一步,并从此确保其可靠性。由于花哨的算法和业务指标无处不在,因此很容易使我们的度量方式变得过于复杂。有时,最简单的方法就是最好的方法。

关注“CDA人工智能学院”,回复“录播”获取更多人工智能精选直播视频!