全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
725 0
2020-11-03
数据工程师:没人把婴儿放在角落里!
哦,卑鄙的数据工程师。哈佛商业评论中声明的数据科学家的角色是“在21最性感的工作ST世纪。” 但是,数据工程师不愿花力气地获取,转换,丰富,整理和准备数据,以供数据科学家做他们的魔术。   
除了建立数据管道外,您认为谁可以实施数据科学? 同样,它是数据工程师。
我们已经帮助数据工程师部署了机器学习模型并使数据科学运行了一段时间。 使用Pentaho数据管道,我们使低级数据工程师能够利用现有数据和功能工程工作,从而大大缩短了部署时间。借助可嵌入的API,组织还可以在现有应用程序中包含Pentaho的全部功能。
对于数据工程师来说,这是个好消息,现在您可以更快,更好地组织工作!现在,您有了一个与Johnny和Baby这样的数据科学家共舞探戈和曼波舞的工具。今天在圣地亚哥的日立NEXT,我有机会参加了一些Pentaho会议,并参观了他们在展厅的展位。 我很高兴看到新功能,例如与Jupyter笔记本的集成-一种高级数据科学开发工具,使用TensorFlow和Keras机器学习库编写的分析模型的编排,以及简化的分析模型管理。
这是我学到的:
1)与Jupyter Notebook集成
数据科学家最习惯在其IDE中工作,并花费大量时间编写脚本来准备数据以提供他们正在探索的模型。 为了解决这个问题,我们已经验证了最佳实践,供数据工程师访问,清理,集成和交付数据即服务,以供数据科学家使用。
数据科学家现在无需手动创建和维护一次性脚本来访问,按摩和处理数据资产,而是可以将精力集中在工作中更具智力回报的部分上-模型探索。他们可以集中精力在Jupyter Notebook熟悉的IDE中开发有见地和准确的分析,Jupyter Notebook是用于当代数据科学的功能强大且流行的工具,而数据准备和集成则由数据工程师完成。使用Pentaho数据集成(PDI)中的拖放界面,数据工程师可以创建转换,从而生成受监管的数据源,可以将其注册到企业数据目录中,以促进跨数据工程和数据科学团队的重用-促进更协作的工作关系。
数据科学家可以访问新鲜的生产数据,而不是较早的测试数据,以进行进一步的模型探索和调整,以保持较高的准确性。一旦数据科学家准备好将他们的模型在生产环境中运行,数据工程师就可以对在开发环境中创建的管道进行较小的修改,以使其准备就绪。
图1.将PDI转换与Jupyter Notebooks集成
2)编排TensorFlow和Keras模型
尽管数据工程师在数据仓库,SQL,NoSQL和Hadoop技术方面具有深入的知识和专业知识,但在大多数情况下,他们没有Python或R编码技能。他们很可能不具备调整机器学习和深度学习模型所需的高级数学和统计技能,从而无法更快地将最准确的模型投入生产。我们认识到这一点,而现在已经加入一个企业级的转换步骤,可以帮助数据工程师嵌入深度学习ML车型引入数据管道无需编码的知识。  
图2.使用Python执行器步骤来编排TensorFlow和Keras模型
3)改进的模型管理
通常,模型一旦达到生产数据,其准确性就会下降。通过我们新的Python执行步骤,用户可以使用生产数据对模型进行更新。 数据工程师可以深入了解模型使用情况,运行挑战者测试,查看模型准确性统计信息并轻松以最高准确性交换模型。 通过保持生产中最准确的模型,组织将做出更好的决策并降低风险。
图3.模型管理参考架构
上面的图3中的参考体系结构概述了在企业环境中有效管理模型所涉及的步骤。首先,数据科学家寻找数据以创建模型,然后请求数据工程师向他提供受控制的数据源。数据工程师建立此源,对管道进行细微调整,并在需要运行模型时重新使用它。数据科学家和数据工程师密切合作,对冠军和挑战者模型进行管理和分类,创建可在将来重用的企业资产。
概要:
分析和数据科学是未来的货币引擎。众所周知,以数据为驱动力,以模型为驱动力的公司将 运转世界。  但是,将分析方法纳入主流对数据工程师提出了数据操作挑战。
拥有一个平台来驱动您的数据工程师,数据科学家和业务利益相关者之间的协作,这是帮助组织更有效地使用数据来推动创新,强劲业务成果和全新业务模型的关键之一。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群