DataOps(数据操作)源于敏捷哲学。它严重依赖自动化,并专注于提高计算机处理的速度和准确性,包括分析、数据访问、集成和质量控制。DataOps 最初是一个最佳实践系统,但逐渐成熟为一种处理
数据分析的功能齐全的方法。此外,它依赖并促进分析团队和信息技术运营团队之间的良好沟通。
在本质上,DataOps 是关于简化数据管理方式和产品创建方式,并将这些改进与业务目标相协调。例如,如果企业的目标是降低客户流失率,那么可以使用客户数据开发一个推荐引擎,根据他们的兴趣向特定客户提供产品——可能会为这些客户提供他们想要的产品。
然而,实施一个数据运维计划确实需要一些劳动力和组织(以及一些资金)。数据科学团队必须能够访问构建推荐引擎所需的数据和部署它的工具,然后才能将其与网站集成。实施 DataOps 计划需要仔细考虑组织的目标和预算问题。
消除对敏捷、DevOps 和 DataOps 的困惑
这敏捷宣言2001 年发表了一些有远见的软件开发人员的想法,他们认为“开发软件”需要彻底重新思考,包括颠倒一些基本假设。这些开箱即用的思想家更看重个人和互动,而不是流程和工具。他们还强调软件工作,而不是全面的文档,响应变化而不是陷入计划中,更喜欢客户协作,而不是合同谈判。敏捷是指一种专注于客户反馈、协作和小型快速发布的哲学。DevOps 源于敏捷哲学。
开发运维指将开发团队(代码创建者)和运营团队(代码用户)聚集在一起的实践。DevOps 是一种软件开发实践,专注于这两个团队之间的沟通、集成和协作,目标是快速部署产品。
DevOps 的想法出现在 2008 年,当时 Andrew Clay Shafer 和 Patrick Debois 正在讨论敏捷基础架构的概念。这个想法开始于 2009 年在比利时举行的第一次 DevOpsDays 活动中传播开来。关于希望提高软件开发效率的对话逐渐演变为旨在改变传统软件开发各个方面的反馈系统。变化范围从编码到与各种利益相关者的沟通,并继续到软件的部署。
DataOps 源于 DevOps 哲学。DataOps 是敏捷和 DevOps 理念,但专注于数据分析。它不依赖于特定的架构、工具、技术或语言。它是故意灵活的。配套工具数据运维促进协作、安全性、质量、访问、易用性和编排。
DataOps 最初由 InformationWeek 的特约编辑 Lenny Liebmann 在一篇名为DataOps 对大数据成功至关重要的 3 个原因. 2017 年,DataOps 出现了大幅增长,分析师覆盖面广、调查、出版物和开源项目大量涌现。2018 年,Gartner 在炒作周期(对新技术生命周期的预测)用于数据管理。
DataOps 自带宣言,并专注于寻找方法来减少完成数据分析项目所需的时间,从最初的想法开始到完成用于交流目的的图形、模型和图表。它通常使用 SPC(统计过程控制)来监视和控制数据分析过程。和SPC,不断监控数据流。如果发生异常情况,数据分析团队会收到自动警报通知。
数据运维的好处
DataOps 的一个目标是促进数据科学家、IT 人员和技术人员,每个团队同步工作,以更快、更智能地利用数据。数据管理越好,数据就越好,而且越可用。更多的数据和更好的数据会带来更好的分析。这反过来又转化为更好的洞察力、更好的业务战略和更大的利润。下面列出了从开发 DataOps 程序中获得的五个好处:
数据问题/解决能力:据说创建的数据量每 12 到 18 个月翻一番。DataOps 有助于将原始数据材料快速高效地转化为有价值的信息。
增强的数据分析: DataOps 促进使用多方面分析技术. 新的
机器学习算法旨在引导数据通过所有分析阶段的方法越来越受欢迎。这些算法可帮助数据专家在将数据交付给客户之前收集、处理和分类数据。它还可以在尽可能短的时间内提供来自客户的反馈,并促进对快速变化的市场需求的快速反应。
寻找新机会: DataOps 为灵活性打开了大门,并改变了组织内的整个工作流程。优先事项发生变化,新的机会作为范式转变的一部分出现。它有助于建立一个新的生态系统,在办公室和部门之间没有界限。开发人员、运营商、数据工程师、分析师和营销顾问等各种员工可以实时协作,规划和组织实现企业目标的方式。这协同作用 将不同的专家聚集在一起可以加快响应时间,并提供更好的客户服务,从而增加企业的利润。
提供长期指导: DataOps 促进战略数据管理的持续实践。它使用多租户合作来帮助协商不同客户的需求。数据专家可以组织数据、评估数据源并研究客户的反馈。实施机器学习 DataOps 可以自动化这些流程(以及更多流程),从而提高业务效率。
DataOps 应被视为一条双向通道,支持数据源和数据用户之间的全面互操作性(交换和使用信息)。通过使用自动流程,数据分析和数据管理变得更加流畅。这些步骤可确保产品交付和部署方面的快速和无缝改进。
持续分析
持续分析是最近的发展。它放弃了使用复杂的批处理数据管道和 ETL,取而代之的是云端和微服务. 连续数据处理支持实时交互,并在使用更少资源的同时提供即时洞察。
连续方法旨在同时运行多个无状态(不保存数据)引擎,从而丰富、分析和处理数据。由此产生的“持续分析”方法提供了更快的答案,同时也使 IT 的工作更简单、成本更低。
传统上,数据科学家与 IT 开发团队是分开的。他们的技能(数学、统计学和数据科学)使他们有别于 IT。然而,持续交付方法让大数据团队可以在更短的周期内发布他们的软件。在这种情况下,数据科学家使用与普通程序员相同的代码存储库来编写代码。数据科学家将他们的代码保存在 Git 中,程序员编写连接到数据源的 API 也是如此。大数据和 DevOps 工程师在 Ansible 和码头工人. 测试通常是该过程的自动化部分。
持续分析本质上是持续交付软件开发模型的扩展。使用此模型的目标是发现将编写分析代码与安装大数据软件相结合的新方法,最好是在自动测试软件的系统中。
实施数据运维
受到不灵活系统和低质量数据挑战的组织已经发现 DataOps 作为解决方案。数据运维包括促进更快、更可靠数据分析的工具和流程。虽然没有单一的方法来实施 DataOps 程序,但一些基本步骤是:
数据民主化:缺乏数据访问/信息是更好决策的障碍。业务利益相关者、首席执行官、数据科学家、IT 和一般管理人员都应该有权访问组织的数据。自助数据访问程序和支持它的基础设施是必不可少的。深度学习和机器学习应用程序需要源源不断的新数据流来学习和改进。
应用平台和开源工具:数据科学平台必须包含在 DataOps 程序中,以及对框架和语言的支持。用于数据移动、集成、编排和性能的平台也很重要。无需重新发明轮子,同时开源工具可用。
自动化、自动化、自动化:为了更快地完成数据密集型项目,自动化是绝对必要的。它消除了耗时的手动工作,例如数据分析管道监控和质量保证测试。微服务 促进自给自足,让数据科学家可以自由地构建和部署模型作为 API。这反过来又允许工程师根据需要集成代码,而无需重构. 总体而言,这会提高生产力。
谨慎管理:请注意:在建立成功蓝图(解决数据科学团队所需的工具、流程、优先级、基础设施和关键绩效指标)之前,请谨慎做出影响业务的决策长期。
粉碎孤岛:协作对于成功的 DataOps 计划至关重要。数据孤岛,这使得除了少数人之外的所有人都无法访问数据,应该被淘汰。用于实施 DataOps 计划的平台和工具应支持将人们聚集在一起更有效地使用数据的更大目标。