全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1359 0
2022-05-23
数据业务感知的转变现在将数据管理推向了新的高度。数据科学现在是数据管理的核心组成部分,但数据管理和数据科学通常被视为两个不同的活动。数据科学家在数据分析师、数据工程师和 DBA 之间工作,他们花时间为数据分析和竞争情报建立合适的数据基础设施。但是,在不断增长的下一代数据市场中,数据管理和分析将成为市场成功的核心差异化因素,因此数据管理和数据科学必须一起工作。

一种福布斯帖子指Everest Group 的一项研究表明,到 2025 年,全球数据管理和分析市场将达到 1350 亿美元。多年来,该市场的供应商已经从功能到流程转变为面向平台。在面向平台的情况下,数据不再被视为业务流程的副产品,而是业务的神经中枢。

今天,企业数据被视为一种“战略资产”,而不仅仅是一种商业商品。全球和各行各业的大多数主要企业都采用了“数据优先”的企业战略。这种对数据作为资产的突然认识或增强感知主要源于数据技术、工具和实践的快速进步。此外,当 Covid 为组织带来数字化推动时,数据和数据技术“一夜成名”。目前很难想象没有数据驱动实践的商业实体。最近,随着在整个企业内推广数据素养的努力,企业领导者采取了决定性的立场,向员工、高管、客户和所有其他利益相关者宣传数据的力量。

这种趋势在全球商业的未来不会放缓。

根据 数据管理协会(骚扰),数据管理包括与数据的安全性、控制、交付和价值提升有关的每一项活动。因此,这一整体学科包括与数据相关的所有战略、政策、程序、技术、工具和实践。从逻辑上讲,数据管理将排除数据库、数据集成、数据质量、数据治理和数据安全等主题领域。尽管这些子领域属于数据管理,但这些领域中的每一个都是独立的研究学科领域。

数据管理与数据科学:根本区别
这数据管理组织的职能是全面控制企业数据的获取、存储、质量、治理和完整性,从而监督该组织内所有数据相关政策的制定和实施。但是,数据管理团队只管理数据资产;它通常不涉及数据的核心技术应用。数据管理功能拥有所有数据。在网络研讨会中数据管理与数据策略, Peter Aiken,谈到“优先考虑组织数据管理需求与数据战略需求”。

另一方面,数据科学组织中的职能部门构思、开发、实施和实践数据资产的所有“技术应用”。从这个意义上说,“技术应用”意味着涉及企业数据的科学、技术、工艺和商业实践。

数据科学团队从不拥有任何数据;他们只需收集、存储、处理、分析数据,然后将数据驱动的结果报告给组织的其他部门以获得业务收益。数据科学家被认为是数据科学和相关技术方面的专家,他们依靠高度专业化的知识(统计知识、计算机科学、人工智能等)为企业提供数据驱动实践方面的建议。

在实际实践中,数据科学功能在组织中的数据管理功能之下。数据科学团队为组织带来了一套核心技术技能,以实施数据管理政策、程序和指南所设置的最佳实践。

数据管理实践与数据科学实践
随着数据的数量和复杂性呈指数级增长,数据管理已成为业务运作中最重要的方面之一。数据管理实践涉及建立与数据相关的政策、程序、角色、职责和严格的访问控制机制。

一个结构良好的数据管理策略专注于数据治理以实现业务价值最大化,现在已成为业务领导者和运营商讨论的中心主题。企业中的数据管理团队构思并制定所有策略。

组织不同部门的数据专业人员负责在日常数据相关工作中实施和遵循所有政策和指导方针。数据治理已被确定为数据管理的核心组成部分,如中所述 数据管理与数据治理:改进组织数据战略。

在数据科学世界中,战略政策、程序和指南在数据技术项目的实施中发挥着重要作用,尽管在这个阶段没有一个管理角色直接存在。换句话说,组织数据战略家通过制定管理数据的政策、程序和指南来结束他们的工作;那么数据科学家或其他数据专业人员有责任遵守政策和指导方针,以确保组织数据战略蓝图完好无损。

数据管理战略家还将考虑可能的违规行为和处罚,以便通过使用控制来监督企业数据战略的实施。

数据科学家与数据经理:角色比较
这数据管理员,通常负责组织中以数据为中心的活动,通常不需要展示技术技能。数据经理拥有一支技术含量高的团队,直接负责企业数据的质量、治理和日常管理。

另一方面,数据科学家是技术合格的个人,其主要职责是分析数据并从数据中提取竞争情报或见解。数据科学家通常拥有统计学、数学、计算机科学等方面的一系列技术技能。

数据科学家通常可以在数据经理的领导下工作,协调所有特定于分析的流程与完全合规(监管)要求。

数据科学家应该了解的数据管理知识
迈向数据科学指出,最近的几项技术运动要求数据科学家重新考虑高级分析的数据管理实践。这些技术运动是:

降低成本并提高数据存储容量
具有流数据的物联网设备的兴起
重新发明数据湖以存储和分析多类型数据
大数据分析
机器学习模型的使用
随着上述在现代企业中占据中心位置,数据科学家现在面临着构建正确的支持治理的数据基础架构以进行高级分析和提取增值洞察力的挑战。

增强数据管理:减轻数据科学家的负担
当个人电脑在 1980 年代中期出现时,每个人都认为这些愚蠢的巫师接管人类劳动只是时间问题。幸运的是,迄今为止,人类和个人计算机正在和谐地工作,并且实际上增强了相互的价值!现在随着人工智能和相关技术的出现,人类再次关注机器取代人类劳动力。与流行的看法相反,机器的进步传统上使人类变得更优秀、更高效、更有生产力。这在数据管理和数据科学领域是如此真实——人工智能和相关技术的存在只会“增强”人类的专业知识——而不是取代它。

在一个典型的增强型数据管理系统中,有五个核心数据科学活动,即数据集成、数据质量、主数据管理 (MDM)、元数据管理和数据库管理系统 (DBMS),通过工具实现完全或部分自动化。

通过使用先进的人工智能、机器学习或分析工具,数据科学家可以从“数据准备的苦差事”中解脱出来。通常,数据科学家大约 80% 的时间都花在准备数据以进行分析;这些工具消除了耗时的工作——为复杂的分析工作留出充足的时间,其中可能包括模型开发或数据解释。

根据作者(布兰登·科斯利– 一位富有创造力的数据科学家、科幻迷和冒险家),人工智能被描述为:

“人工智能不仅适用于工程师。如果您希望您的组织在使用 AI 方面变得更好,这是告诉每个人——尤其是你的非技术同事——学习的课程。”

希望你能明白上面引用的精髓。人工智能技术适用于所有人,而不仅仅是技术书呆子,因为它们通过缩小技能差距使人类“在工作中变得更好、更有效率”。作者最后也是最重要的建议涉及“思维方式、技能和数据集的改变”,并通过图形进行了精美的解释。不要忘记查看链接帖子中的图形。

数据法规在数据管理和数据科学中的作用
通用数据隐私条例(General Data Privacy Regulations)等数据法规的出现GDPR) 和CCPA为现有的与数据科学重叠的数据管理实践增加了一个新维度。新法规提供了更好的治理机制,特别是在数据隐私、数据安全和道德领域,但使人工智能驱动的数据科学平台变得复杂。现在数据管理员他们不仅要考虑对数据隐私、安全和道德实施严格控制,还要担心先进技术(AI、ML)对数据治理的影响。

在以法规为中心的数据治理、数据管理和数据科学实践的新世界中,这些活动将保持平行活动,但会在多个实例中交叉。

这种碰撞的最终结果是什么?供应商和服务提供商将合并、收购和整合。

从严格的技术角度来看,高德纳在企业数据管理和数据科学实践中制定了以下可观察到的转变:

边干边学
业务信息架构
为增强数据治理考虑数据中心
集中或分散以及新的 CDO 角色,无论是首席数据还是首席数字
数据管理和数据科学如何结合?
在理想的业务场景中,数据管理和数据科学实践相一致以获得最佳结果。那么,这两种做法如何保持一致呢?

通过关于维护数据治理指南的相互协议
通过更好地理解数据管理和数据科学重叠的方式和位置
通过建立结构良好的数据科学框架,让初级数据科学家能够完成工作
根据关于知乎, 数据管理侧重于管理良好的数据收集和数据访问。数据科学专注于从数据分析中得出战略性业务决策。缺乏数据管理表明“数据科学由于质量差或无法访问数据而提供糟糕的分析”的风险。

2022 年数据管理和数据科学趋势
在本文中,作者 Mark Van de Wiel 强调了 2022 年将主导数据管理的五个趋势。

AI/ML 平台的采用率上升
加速使用云 SaaS 平台
在公有云领域,Google Cloud、AWS 和 Azure 将抢尽风头
CDC 将成为数据同步活动的首选模式
Data Fabric 将提高数据管理效率,同时降低成本。
毋庸置疑,随着上述改变游戏规则的趋势,以下趋势也将在 2022 年席卷数据管理和数据科学领域:

从本地 DM 和数据科学转向云上的托管服务
容器化、数据结构等云友好型数据技术的增长
面向所有人的数据科学(数据和所有数据活动的民主化)
自动化数据管理和自动化数据科学是增强型 DM、增强型 DS、嵌入式 AI 和自助分析的形式。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群