数据编排使您的数据更紧密,访问速度更快
数据编排意味着试图使订单和速度变得复杂 大数据生态系统,Amazon S3,Apache HDFS或OpenStack Swift等存储系统以及Apache Spark和Hadoop MapReduce等计算框架和应用程序的集合。数据孤岛的激增使数据堆栈变得支离破碎,并降低了性能。
该技术旨在突破“围墙花园”,该花园如今限制了应用程序和人们访问任何格式和位置的数据源的能力。随着企业继续转向混合和多云架构,并且随着数据的不断增长,跨数据生态系统的前向兼容性变得越来越重要。
一个开源项目, 太子,这是从 加州大学伯克利分校的AMPLab旨在防止存储成为工作负载的瓶颈。李浩远与人共同创建了Apache Spark Streaming,并且是Apache Spark的创建项目管理委员会(PMC)的成员,他创建了分布式文件系统,该系统可以在整个集群计算框架之间以内存速度可靠地共享数据。雅虎,Tachyon Nexus,Redhat,诺基亚,英特尔和Databricks都是其贡献者。
Tachyon现在被称为 阿卢西奥 今天,它已用于生产中,用于管理阿里云,巴克莱,ING,微软和许多其他大型公司的PB级数据。最大部署超过1300个节点。李现在是公司的首席技术官。
迁移到云和云分析
首席执行官史蒂文·米(Steven Mih)在最近的DATAVERSITY?采访中表示,在过去的十年中,存储系统确实占据了主导地位,但是现在该行业正在转向云和云分析系统。和数据编排 对于将数据从不同的系统转移到组织要使用的新框架中,这一点至关重要。
Mih说:“数字化转型处于第二阶段。” 对于数据驱动的数字转换,数据需要快速提供给分析系统。但是,当数据分布在多个数据中心或云中时,查询可能需要将数据从一个地方传输到另一个地方,从而造成巨大的延迟。
Alluxio位于计算和存储之间,并提供单点数据访问和集成。数据编排解决方案不是要摆脱数据孤岛,而是要“包容混乱”,如Mih所说。“让需要数据的应用程序能够拥有一个将其应用到系统中的系统。那将是混合云和多云的世界。”
所访问的数据(无论是在本地存储系统上还是在公共云中)都被移动到内存中。在第一种情况下,可以以网络的速度提供数据,在第二种情况下,可以以本地内存或磁盘的速度提供数据。然后,将远程访问的数据移到本地群集的内存中。
数据可以在本地以计算Spark,Presto和Hive缓存的工作负载;无论是本地还是云中的文件和对象都是可访问的,而且弹性十足,因为您可以跨多云。
由于虚拟文件系统最简单的形式就是透明地连接到现有存储系统,并将其作为单个系统呈现给用户,因此,Alluxio可以帮助应对深度学习的数据管理挑战。因为它可以与存储系统集成,所以
深度学习框架只需要与Alluxio交互即可访问所有存储中的所有数据。该公司表示,通过这种方式,可以对来自任何数据源的所有数据进行培训,从而可以提高模型性能。
死于数据争执
如果可以避免,谁也不想破坏数据(将数据复制到可能在云中或其他地方的不同数据孤岛)。而且,Alluxio可以帮助用户超越使用API??一次将所有内容连接在一起的目的。
Mih说,有了许多集群框架系统,每当您有一个新集群时,都必须使API与数据源一起使用。“假设您有五个框架和一个数据源,那就是五个连接器。如果您有第二个数据源,它是十个连接器,对吗?” 等等。
通过分层来重新考虑这一点,意味着只需将新的数据源插入集线器(即中央运输中心)即可。Mih说:“我们将采用以应用程序为中心的视图,而不是以存储为中心的视图。” 这有助于保持数据法规遵从性以及按需提供数据。
在这方面,没有理由将旧平台(可能总计数百TB)的所有数据一次全部放入云中。
他说:“您只需获取相关数据并将其存储在云中即可。” “相关数据量只是您数据的一小部分,这是您真正关心的。那可能只是全部数据的百分之三到百分之五。数据编排的工作是使我们所谓的“数据活动站点”可用且具有弹性。”
组织可以逐渐移动数据,直到准备好完全迁移到云中为止。
他说:“这就是人们要去的方向。” “他们将迁移,很可能会从混合环境开始,然后迁移到单个云中,然后再迁移到多云情况。那就是您有多个基于不同应用程序创建运营数据而生成的数据孤岛的时候。”
从成本的角度来看,使用数据编排是成本最低的方法 运行分析Mih说。“您拥有最低,最轻松的位置来维护存储操作,并且拥有横向扩展系统的操作来进行分析,因此您无需为未使用的计算付费。那就是新的现代
数据分析,它需要包括数据编排。”

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!