典型数据科学生命周期中的许多阶段与数据的关系比与科学的关系更大。在数据科学家真正从事科学之前,他们必须首先完成几个步骤:
找到正确的数据所在的位置。
访问该数据,这需要了解组织在所有权、凭证、访问方法和访问技术方面的官僚作风。
将数据转换为易于使用的格式。
将该数据与其他来源中的其他数据合并,这些数据的格式可能不同。
分析和清理数据以消除不完整或不一致的数据点。
复杂的问题是87% 的数据科学项目从未投入生产。这种高故障率背后的原因是数据源的多样性、数据类型和数据量的多样性使得数据科学家在正确的时间访问正确的数据成为一项复杂的任务。
消除瓶颈
虽然许多技术正在竞相弥合数据和数据科学家之间的虚幻鸿沟,但一种现代数据集成和数据管理技术正在使用一种新颖的方法解决这个问题。数据虚拟化 (DV) 不是物理移动数据以便数据科学家可以发现、访问和利用数据,而是为数据科学家提供其现有位置数据的实时视图。
在架构上,数据虚拟化占据了不同数据源和消费应用程序之间的一层。DV层本身不包含数据;它仅包含访问不同数据源所需的元数据。虽然该技术并没有消除数据准备活动,但它大大加快了这些活动,有效地消除了数据科学生命周期中的关键瓶颈。
重要的是要认识到数据虚拟化可以消除典型数据科学工作流程中的日志堵塞的一些方法,以及如何使用它来克服典型数据科学生命周期的四个挑战:
识别有用数据: DV 为数据科学家提供了一个统一的 SQL 接口,用于访问所有数据,包括物理数据湖、Spark 或 Presto 实施、提供 Salesforce 和/或社交媒体数据的 API,或平面和/或 JSON 文件。一些 DV 解决方案还提供数据目录功能,使数据科学家能够发现具有类似搜索引擎功能的数据,并推荐或评价不同的数据集。
将数据修改为有用的格式:数据虚拟化有助于在连接、聚合和转换中使用 SQL 组合来自不同来源的数据。在一些数据虚拟化解决方案中,它们还提供提供拖放式简单性的管理工具。数据科学家可以利用他们自己的笔记本(例如 Jupiter)进行此类操作,或者使用某些 DV 产品中包含的笔记本。无论哪种情况,这些笔记本都提供高度灵活的可视化界面和直观的功能,例如自动生成的图表。
分析数据:借助数据虚拟化,分析几乎可以在访问点立即开始,在识别有用数据或将其修改为不同格式时,数据科学家已经在执行查询。
准备和执行数据科学算法:高级 DV 解决方案提供查询优化器,它使用诸如最大限度地向源下推流程等技术来简化查询性能。优化器可能只下推部分操作,具体取决于最佳预期结果。DV 还可以加速模型评分并提供 Python 等框架,例如,将模型自动发布为 REST API。
与业务用户共享结果:利用数据目录作为数据虚拟化实施的一部分,数据科学家可以与其他团队成员共享他们的查询,以实现更具协作性的迭代工作流。数据科学家可以执行过滤器或聚合并与其他人共享,以查看它们是否在正确的轨道上。在工作流程中的任何时候,数据科学家都可以要求有关查询过程中的反馈。一旦模型到位并准备好结果,数据虚拟化就提供了与业务用户共享该信息的不同方式。DV 解决方案可能使用其本机驱动程序将数据直接传送到特定应用程序,如 Tableau、MicroStrategy 或 Power BI。这些工具的用户将连接到数据虚拟化服务器并直接在他们选择的工具中查看结果。
数据虚拟化和数据科学生命周期
数据科学可以通过消除一些关键瓶颈来简化,所有这些瓶颈都与数据有关。幸运的是,数据虚拟化是一种技术,已经证明它可以消除所有这些。该技术可以战略性地部署在数据科学生命周期的所有关键阶段,通过实时访问不同的数据源来加速数据科学计划,并使企业能够更轻松地了解使用完整且经过验证的数据做出决策
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选