事件流处理为何引领新的大数据时代
大数据可能是过去十年中最被滥用的词汇之一。它由业务经理,技术专家和经验丰富的学者广泛推广,讨论和传播。诸如“数据就是新石油”的口号被广泛接受为毋庸置疑的真理。
这些信念推动了技术的发展。它的堆栈以前由Yahoo!开发。现在由Apache Software Foundation拥有,被公认为“大数据解决方案”。
许多公司开始提供商业,企业级和受支持的Hadoop版本,直到开始被众多行业(包括中型公司到财富500强)进行试验和采用。
能够分析异构源生成的大量数据,以试图提高公司的竞争力和盈利能力,这是在Hadoop上进行投资的主要原因。
另一个重要点是用Hadoop代替昂贵的旧数据仓库安装的想法,试图同时提高性能和数据可用性,同时降低运营成本。
但是,在过去的几年中,越来越多的专注于大数据市场的分析师开始发表文章。这些陈述背后的主要动机可以概括如下:
部署模型正在从本地解决方案过渡到混合,完整和多云架构。Hadoop并不是一种完全可用于云的技术。此外,多年以来,云供应商一直在销售更便宜,易于管理和使用的解决方案。
机器学习技术和平台正在迅速达到生产力成熟度。Hadoop堆栈并不是围绕
机器学习概念而构思的,即使这些年来已经添加了对它的支持。
先进的实时分析市场正在迅速增长。Hadoop堆栈似乎并不是最适合实施这些创新的分析方法。
简而言之,分析师开始宣称Hadoop不再是一种创新技术,并且为了解决未来的挑战,需要摆出一些不同的东西。
相反,从更经验的角度来看,分析我们过去的个人经验,事实证明,基于Hadoop堆栈的解决方案确实很难开发和维护且昂贵。此外,具有合适技能和任何经过验证的经验的专业人员很难招募。
结果,许多采用者最终都没有达到在该技术之上开发的垂直解决方案的成熟度。结果是,将这些系统从PoC和原型状态转变为实际的生产力似乎几乎是无法达到的终点。
这些并不是导致最近人们对Hadoop技术以及总体上对“大数据”运动感到失望的唯一关键原因。可以从许多Hadoop供应商所使用的命题中确定主要动机之一,这些命题将概念定位为数据管理的中心。
尽管大型和复杂的组织至少仍然需要创建唯一的,非规范化的数据存储库,以至少增强数据治理和数据沿袭实践的能力,但旨在养活Data Lakes的项目通常要在大型企业中持续数年才能达到成熟。从经济和项目治理的角度来看,这些举措中的大多数最终都证明是非常昂贵的。
这些复杂的存储库充满了历史数据,在幸运的情况下,这些数据指的是最后一个交易日的一系列快照。尽管这在许多业务场景中都是可以接受的,但企业界仍需要立即对事件做出反应。因此,公司越来越需要更准确和快速的洞察力,以立即预测由可用输入操作集生成的可能结果和方案。
如今,有效解决这些紧迫需求的最佳方法之一就是采用一种体系结构。回到各种分析师提出的观点,很明显,事件流处理至少可以成为一个完美的主干:
多云架构的实现(跨不同数据中心和云供应商的分布式数据的实时或近实时集成)。
机器学习模型的部署和监视,享受实时预测的强大功能。
在分析历史数据时,实时数据处理不会损失准确性。
由于这些原因,流技术每天都在进步,因此将市场份额吞噬到可用于批处理的更规范的解决方案中。
Hadoop供应商大多数决定通过将其纳入大数据分发中来解决这些紧迫的需求,大数据分发是开源领域提供的流框架之一。选择的解决方案通常是Apache Storm或Apache Spark Streaming。
不幸的是,结果是最终在堆栈中增加了更多的复杂性。所提供的产品最终包括大量的计算引擎,这使像建筑师和开发人员这样的可操作人员难以选择合适的工作工具。
相反,其他供应商正在尝试采用新的方式来处理有界(例如文件)和无界(例如无限的推文输入序列)组合的数据源,方法是使用流引擎进行批处理。
流与批处理之间是什么关系?尽管几乎不可能在批处理框架上运行流处理作业,但相反的做法在很大程度上是可行的。例如,我们可以使用流处理框架读取文本文件,将每个文件行转换为单个事件并进行处理。另一方面,批处理框架虽然可以处理一组事件,但不能对每个事件都起作用:要获得相似的结果,必须对其进行连续调度。
结论
总而言之,可以将流处理识别为批处理的超集。因此,可以将批处理视为流处理的特殊情况。
总之,事件流处理引擎的使用可以:
处理绑定数据(静态数据)和未绑定数据(动态数据)。
提供可调节的低延迟(范围从毫秒到秒)的过程数据仍然以高吞吐量运行。
提供不同的处理语义(最多一次,至少一次或正好一次)。
以分布式方式处理异构数据,从而横向扩展系统。
但是,所有这一切都有阴暗面。它并不像看起来似乎容易构造和开发基于流处理的解决方案那样简单。尽管此类技术是轻量级的,并且通常需要较少的堆栈,但是一开始它们以正确的方式使用并不容易。
相反,考虑到其重要性和好处,应通过使用高级自助服务工具来解决障碍,从而使事件流处理民主化,该工具通过利用公司中通常已经存在的大数据堆栈并试图保持最佳实践和模式来加强最佳实践和模式。过去的投资。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!