全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2234 0
2022-04-28

全世界共创建、捕获、复制和消耗了近 64.2 泽字节的数据,到 2025 年,这一数字预计将翻一番以上,达到 180 泽字节。

越来越多的公司依赖这些数据为客户创造出色的体验并增加收入。同时,如果没有一种方法可以自动化检测数据质量问题的过程,所有这些数据都会很快失控,从而削弱信任并损害利润。

数据可观察性系统已成为数据驱动型公司的重要工具,帮助他们在不牺牲质量和可靠性的情况下利用大量数据。数据可观察性系统收集有关数据的信号,包括数据新鲜度、空值和空白以及业务规则违规,并使用这些信号来检测甚至防止错误。借助有效的数据可观察性系统,数据团队可以通过关注哪些数据最重要以及提供衡量补救工作的方法来回答有关资源分配、人员培训和招聘的许多最大问题。

数据可观察性通常由工程师实现,因此,很容易假设数据可观察性主要是一项工程工作。但是真正有效的数据可观察性系统需要有效的数据科学。作为数据科学家,我们可以通过应用最合适的统计和机器学习工具来自动化这些复杂的过程,从而在帮助提高数据可观察性方面发挥巨大的作用。数据科学负责数据可观察性系统的一些最重要的部分。

数据科学和数据可观察性当我在 Uber 工作时,我带领团队负责开发内部数据质量监控器 (DQM),以跟踪关键平台的数据健康状况,利用信号指标的预测和异常检测来实现可观察性。我们发现了与数据健康状况相关的特定信号,例如列行计数和平均值,它们可以概述公司数据环境的总体健康状况。从那次经历和我在 Bigeye 的经历中,我了解到数据科学对于有效的可观察性系统的重要性。

我们以异常检测为例。异常检测,再加上对时间序列信号的强大预测,确保系统可以将数据动态捆绑在一起,以描述驱动业务的数据的健康状况。有了这种异常检测,数据团队可以主动检测问题(即使是可能造成

对数据应用程序造成严重破坏)并适应业务变化,领导层可以快速找出业务问题的根本原因。如果没有高级异常检测,数据可观察性系统将处于被动状态,等待出现问题,然后尝试将其构建到系统中。但这是一场必败之战,随着业务和数据的变化,新的问题将不断出现。

让我们通过查看缓慢的退化来进一步挖掘。缓慢降级是指数据管道问题的严重性似乎很低,因此很容易错过,但如果不加以控制,随着时间的推移,它可能会滚雪球成更严重的问题。这导致可怕的认识,几周或几个月来,一个未被发现的问题一直在侵蚀数据管道。团队必须追查哪些数据集受到影响,并通过复杂的修复过程来纠正被侵蚀的数据。不幸的是,许多团队没有采取适当和及时的行动,当基础数据对公司财务很重要时,有时这可能会导致法律问题。

缓慢降级警报只是动态数据驱动异常检测的一个示例。其他示例包括强化学习、异常排除、模式识别等。简而言之,数据科学对于我们今天生活的海量数据世界的异常检测智能的大多数方面都至关重要。

可观察性机会

随着 Datadog、Dynatrace、New Relic 和 AppDynamics 等公司为应用程序性能监控 (APM) 开拓巨大市场,可观察性在提高软件可靠性方面发挥了巨大作用。现在,数据可观察性正在彻底改变数据空间——这个快速扩张的市场需要数据科学家帮助建立世界级的数据可观察性系统。

如果您目前是一名数据科学家或正在研究进入这条职业道路,那么有大量有趣的可观察性问题等待您解决,其中一些新方法可能会改变未来几年的科技格局。

      相关帖子DA内容精选

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群