全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
888 0
2020-09-02
自我意识流
自我意识流
1.问题陈述
通过处理动态数据,实时/流处理使您能够洞悉业务并做出重要决策。
流处理中的挑战-
为峰值负载过度配置资源可能很浪费,而配置不足可能会对流应用程序的性能产生巨大影响。
技术的最新发展导致大量数据需要严格的延迟约束的实时分析。
如何确定诸如内存,磁盘或网络带宽之类的资源量。
与决策中的新数据相比,陈旧数据没有任何用处。
我们正在尝试构建用于流处理应用程序的体系结构,该体系结构可以自动扩展数据管道资源,从而具有自我意识。
2.现有架构的约束
从云提供商的角度对云中有关资源扩展的大多数研究工作进行了调查,它们专注于Web应用程序,没有考虑多个资源瓶颈。
尽管先前在资源自动扩展领域进行了研究,但是当前的SPE(流处理引擎),无论是开源的(例如Apache Storm)还是商业的(例如IBM Infosphere和Microsoft Azure中的流组件),都缺乏自动增长和收缩的能力。以满足流数据应用程序的需求。
此外,先前关于自动缩放的研究集中于对资源进行反应式缩放的技术,这对于时间敏感的流应用程序可能会延迟缩放决策,这是无法接受的。
据我们所知,没有或仅有有限的研究使用机器学习技术根据数据流工作负载的数据流特征来主动预测未来的瓶颈。
3.我们的解决方案–什么?为什么?
我们旨在识别和预测数据点的流入,以便我们可以在X的时间后了解什么是数据流入。如果系统能够识别,那么它将能够为其提供资源。
这就是为什么将其称为“ 自我意识”流。
在此POC中,我们提出了一个三阶段框架的愿景,该框架可以自动扩展云中SPE(流处理引擎)的资源。
工作负荷模型是使用数据流特征创建的。
工作量模型的输出可预测未来的瓶颈。
做出资源的扩展决策。
4.自我意识流传输架构
5.机器学习模型在这里提供帮助:
有多种机器学习模型可用。在这里,我们使用了ARIMA模型。
6.时间序列数据
资源的自动缩放是根据时间序列数据完成的。
7. ARIMA模型-救助者
一个  ARIMA模型  是一类统计模型分析和预测的时间序列数据。
ARIMA是首字母缩写词,代表自动回归综合移动平均线。它是对更简单的自回归移动平均线的概括,并增加了积分的概念。
ARIMA模型的参数定义如下:
p:模型中包含的滞后观察次数,也称为滞后阶数。
d:原始观测值相差的次数,也称为相异度。
q:移动平均窗口的大小,也称为移动平均的顺序。
8.训练模型
一个  ARIMA模型  进行训练一些很好的数据量。
生成一些数据,其中包含两个字段,即时间窗口和每分钟的消息计数。
9.遵循的方法
训练机器学习模型。
将IoT流数据摄取到一些Kafka队列中。
使用Spark结构化流读取流。
将“窗口”功能应用于具有一些预定义窗口长度和滑动间隔的传入流。
加载经过训练的ARIMA模型,并将其与来自先前窗口的输入流一起馈入。ARIMA模型将使用其参数对下一个值进行预测。
如果10到15次出现的预测值大于阈值,则为“异常”。
现在是时候做出反应了,这是令人惊讶的!
10.自动缩放
11.未来的改进
当前,该系统能够实时自动添加资源,将来可以对其进行增强以实时自动缩减资源。
在Web UI上发布消息,以通知用户通过在Kafka Queue中添加更多主题并增加Spark作业实例的数量来增加资源分配。
执行系统级代码以获取新的云计算机,并将其作为新节点添加到Kafka集群中。
执行脚本以触发由云服务提供商(例如AWS)提供的Autoscaling,并做出反应性决策作为预测性决策。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群