数据工程师的工作技术性很强。他们负责设计和维护数据系统架构,其中包含从分析基础架构到数据仓库的各种概念。数据工程师需要对常用的脚本语言有深入的了解,并有望通过利用和改进
数据分析系统来支持改进的数据质量和增加数量的稳步发展。数据工程师还负责创建用于建模、挖掘、验证和采集的步骤和流程。
这对熟练数据工程师的需求预计将快速增长。在现代世界中,企业和组织需要强大的数据架构用于存储和访问数据。当组织扩展到使用数据科学时,需要数据工程师。因此,最近出现了对数据工程师的攻击。
组织可能会假设它可以在完成项目时开发所需的数据工程技能和经验。根据凯文萨福德的说法,该公司的高级主管伞形花序,他们通常是错误的。他加了:
“如果您在构建数据管道、数据管理系统、数据分析和所有中间代码以使数据可用和可访问并确保数据是正确的,以确保您所做的分析是正确的——如果您没有特定的专业知识,那么看起来这些是您可以随时弄清楚的事情类型。我见过很多人做出这些假设。他们几乎总是错的,而且他们几乎总是犯同样的错误。”
数据工程师与数据科学家
这技能和责任数据科学家和数据工程师的比例经常重叠,尽管这两个职位越来越多地被划分为不同的角色。数据科学家倾向于专注于翻译大数据进入商业智能,而数据工程师则更多地关注构建数据架构和基础设施以生成数据。数据科学家需要数据工程师来创建他们工作的环境和基础设施。
数据科学家更多地关注与基础设施的交互,而不是构建和维护它。数据科学家有责任获取原始数据,并将其转化为有用的、可理解的、可操作的信息。数据科学家处理大数据,数据工程师处理数据基础设施和基础。
数据基础
一个数据基础支持所有类型的报告和分析。数据工程师的目标是提供可信、集成和最新的数据,以支持报告和分析。强大的数据基础为组织提供了巨大的好处,使他们的行为和决策更有效率。有用的好处包括:
改善组织沟通与协作
一站式购买数据
保存的记录的单一版本
支持整个企业对信息的共同理解
由于不实施有效的数据基础,现代组织会增加其自身的安全风险,并支持组织内的低效率。糟糕的数据基础可以为同一个问题提供多个答案,并支持不太明智的业务决策。
大数据工程技能
数据工程师需要对数据库管理有很好的理解,其中包括深入了解结构化查询语言(SQL)。他们构建基础设施、工具、框架和服务。一些人认为数据工程已经变得比数据科学更类似于软件工程和应用程序开发。其他有用的技能包括:
具有 Apache Hadoop、Hive、MapReduce 和 Hbase 的经验。
机器学习(ML) 主要是数据科学家关注的重点,但对它的一些了解对于数据工程也很重要。ML 与大数据密切相关。(ML 简化了大数据的处理,并支持许多处理大数据的技术,并理解它。)
编码知识绝对是一个加分项。熟悉 C/C++、Java、Python、Perl、Golang 或其他语言会非常有用。对 Linux、UNIX 和 Solaris 有很好的了解也很有帮助,因为这些系统具有对操作系统功能和硬件的重要根访问权限。
ETL(提取、转换和加载)经验是必需品对于这个职位。ETL 是一种数据仓库过程,用于从源系统中提取数据,然后将其存储在数据仓库中。熟悉 ETL 工具,例如部分或者Oracle 仓库构建器和数据存储解决方案,例如全方位或者红移, 很有价值。
ETL(提取、转换和加载)
在计算的世界里,ETL用于数据库和仓库建设。提取、转换和加载在 1970 年代开始流行。数据提取描述从同构或异构数据源中提取的数据。数据转换表示将数据转换为适当的结构或格式,以用于存储(以及后来的研究和分析)。数据加载是将翻译后的数据下载到数据集市、数据存储或数据仓库的过程。
设计良好的 ETL 系统可以从源系统中提取数据,并强制执行数据一致性和质量标准。它还可以以可用于演示的格式提供数据,允许开发人员构建应用程序,最终用户决定其价值。
ETL 系统传统上集成来自多个应用程序以及来自不同供应商和计算机硬件的数据。包含原始数据的独立系统通常由不同的人操作和控制。例如,工资核算系统的经理可以结合销售和采购的数据。
数据仓库
数据仓库用于存储、报告和数据分析。在现代发展中是必不可少的商业智能. 数据仓库用于集中存储来自一个或多个来源的集成数据。它们存储当前和历史数据,用于开发分析报告。
没有数据仓库(或其更新的架构对应数据湖),大数据的处理——以及与数据科学相关的每一项活动——变得异常昂贵或不可扩展。如果没有智能设计的数据仓库,分析师可以在研究同一个问题后轻松报告不同的结果。他们还可能无意中尝试
研究生产数据库(虽然缺乏数据仓库),并导致延迟或中断。
成为数据工程师
通常,数据工程师拥有信息技术或计算机科学学位以及认证和其他培训。由于每个工作环境的个性化需求,数据工程学校通常以更大的灵活性进行教育。
学位和专业培训很重要,但仅靠他们自己是不够的。额外的认证可能非常有价值。有用的数据工程认证包括:
中共数据工程师(Cloudera 的认证数据工程师证书)——这提供了使用 ETL 工具和分析的经验证明。
谷歌的认证——这建立了对基本数据工程技能的熟悉。
IBM 认证数据工程师(对于大数据)——这传达了使用大数据应用程序的经验。