全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2149 0
2020-08-12
什么是数据管道?
如果您了解了用于加速CPU执行的时间并行性,那么您会遇到指令管道(也称为管道处理)。在管道处理中,您将在执行的不同阶段拥有许多指令。术语“数据管道”是误称,表示用于源系统和目标之间的数据传输的高带宽通信通道。在某些情况下,目的地称为接收器。根据定义,管道的一端连接到源时,允许流体自动从一端流向另一端。通过通信通道的数据流使人们将其视为管道,因此出现了“数据管道”一词。源系统可以是电子商务/旅游网站,也可以是社交媒体平台。
随着社交媒体在无处不在的计算设备上的可用性,世界上所有的人都已经成为数据输入条目的运营商。物联网设备已经成为连续数据的另一个来源。考虑在社交媒体网站上的一条评论。输入此评论可能会生成数据,以提供对社交媒体提及计数的实时报告,这是一种情感分析应用程序,可输出肯定,否定或中立的结果。尽管在所有情况下数据都来自同一来源,但是这些应用程序中的每一个都是基于唯一的数据管道构建的,这些管道必须在最终用户看到结果之前顺利完成。因此,数据管道是一对多的连接,具体取决于消耗数据的应用程序的数量。数据管道中的常见处理步骤包括数据转换,扩充,扩充,过滤,分组,聚合,
数据管道已成为当今数据驱动的企业处理大数据的必要条件。众所周知,体积,多样性和速度是大数据的关键属性。建立大数据管道可有效容纳这些属性中的一个或多个。让我们以“音量”的第一个属性为例。在管道处理实时流数据和批处理数据的情况下,对volume属性的处理方式有所不同。大数据的速度使得有必要为大数据建立实时流数据管道。可以实时捕获和处理数据,以对推荐系统等解决方案做出快速决策。volume属性要求数据管道可扩展,因为数据量可以随时间变化。大数据管道必须能够扩展容量以同时处理大量数据。大数据的多样性属性要求大数据管道能够识别和处理多种不同格式的数据:结构化,非结构化和半结构化。
数据管道对于依赖于来自多个源的大量数据的企业非常有用。根据数据使用的性质,数据管道大致分为实时,批处理和云本地。有时,对于需要亚秒级决策的系统,需要实时处理数据。批处理模式处理大数据的卷属性,当要定期处理大量数据时,将使用这些数据管道。您可以将批处理数据存储在数据箱中,直到处理和清空它们为止。在批处理模式数据管道中可以实现多个数据容器。Cloud本机数据管道旨在通过创建复杂的数据处理工作负载来处理基于云的数据。例如,
在实时数据管道中,数据在到达时和到达时流动。这种类型的管道处理大数据的速度属性。数据到达和消耗的速率可能有所不同。为了解决速率不匹配的问题,我们需要在数据管道中实现排队和缓冲系统。常用的工具是Apache Kafka,这是一个基于消息队列的事件流平台。Kafka在发布订阅模式下工作,并确保消息以它们到达和传递的顺序按相同的顺序排队,并且可靠性很高。Kafka将消息缓冲在内存中以便快速传递。
与实时数据管道密切相关的另一个术语是流计算。术语“流计算”是指以单个流引入数据流。流计算使用软件算法对流进的数据进行实时分析,以提高速度和准确性。流计算的一个简单示例是使用GPU实现的图形处理,用于在计算机屏幕上渲染图像。其他示例是来自流源(例如金融市场)或来自已连接设备的遥测数据。当流计算进行实时处理时,已使用ETL工具批量处理工作负载。随着数据管道的发展,出现了一种新型的流ETL工具,用于数据的实时转换。
Lambda体系结构是一种数据处理体系结构,可以满足大数据处理的需求。它旨在利用批处理和流处理方法。这种方法尝试使用批处理来减少等待时间,以使用实时流处理提供在线数据的视图,同时提供批数据的准确视图。Lambda体系结构描述了一个由三层组成的系统:批处理,速度(或实时)处理以及用于响应查询的服务层。批处理层使用可处理大量数据的分布式处理框架(例如Hadoop MapReduce和Apache Spark)预先计算来自存档数据的结果。批处理层旨在通过在生成视图时处理所有可用数据来实现完美的准确性。速度层实时处理数据流,它牺牲吞吐量,因为它旨在通过提供对最新数据的实时视图来最大程度地减少延迟。速度层负责填补由于批处理层基于最新数据提供视图而造成的延迟。该层的视图可能不如批处理层最终生成的视图准确或完整,但是它们几乎在接收到数据后立即可用,并且可以在同一数据的批处理层的视图可用时替换。这两个视图输出通过数据管道中的T结连接到表示报告的表示层。在Lambda架构中,实时数据管道与批处理合并以基于最新数据进行决策。
数据流水线体系结构的设计需要根据使用场景进行许多考虑。例如,您的管道是否需要处理流数据?如果是这样,您期望什么数据速率?数据管道中需要进行多少次处理?数据是在云中还是内部生成的,需要去哪里?您是否打算通过微服务构建管道?您是否可以利用特定技术来实施?

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群