为什么每个数据科学家都需要数据工程师
数据科学家将大部分时间(最多79%!)用于他们最讨厌的工作。
数据科学家的作用
但是,一旦组织有了数据科学家,那该怎么办?他们如何营造一个可以最大化该人技能并希望留下的环境?
首先考虑一下一个普通的数据科学家每天都在做什么:
建立训练集(3%的时间)
清理和整理数据(60%)
收集数据集(19%)
数据模式的地雷(9%)
优化算法(4%)
其他(5%)
在这里,我们看到了角色变得多么不性感的原因,因为绝大多数数据科学家同意,收集数据集并对其进行清理和组织是他们 最不 喜欢的工作。更糟糕的是,收集和组织数据与洞察力绝对无关。这仅仅是数据准备。它需要高水平的技能来完成,但这不是数据科学。
公司可以让其他人准备数据,从而使数据科学家有更多的时间可以花费多达79%的时间进行分析。公司不仅可以从每一次花在洞察上的额外时刻中获得更多的价值,而且还使他们的数据科学家能够做自己喜欢的事。
因此,应将数据准备工作应用于正确的角色-数据工程师。
数据工程师的角色
数据工程的需求也在增长。在“数据工程师的崛起”中,Airbnb的“数据工程师非凡”马克西姆·博赫明(Maxime Beauchemin)写道,他如何在2011年以商业智能工程师的身份加入Facebook,并在两年后离开了数据工程师的行列。对更复杂的,基于代码的ETL和不断变化的数据建模的需求推动了对数据工程的需求。
那么什么是数据工程呢?它是访问,处理,充实,清理和/或以其他方式编排
数据分析的行为。Beauchemin这样说:“数据工程师构建工具,基础架构,框架和服务。在还没有正式成立数据基础架构团队的小型公司中,数据工程角色也可能涉及建立和运营组织的数据基础架构的工作量。”
换句话说,仅数据工程并不能揭示见解。它准备好您的数据以进行可靠的分析。 通过谁?数据科学家或分析师。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!