通过将时间序列数据库与
机器学习相结合来实现IT基础架构监控的现代化
让我们探索IT基础架构的复杂性和脆弱性,以及如何使用时间序列数据库和机器学习的组合来构建现代的IT基础架构监视解决方案。
IT基础架构:复杂而脆弱
iCloud最近加入了Google,Facebook和Amazon,成为遭受大规模云中断的主要公司。请查看ZDNet的系列文章,详细介绍停机情况。中断造成YouTube,Snapchat和Gmail等中断。
iCloud的失败也影响了其所有第三方应用程序和ApplePay,它们在全球范围内都得到了回响。我们已经迅速接受了云,使其具有比本地基础架构更强的弹性,因此此消息令人震惊。它还显示了基于IT的IT基础架构(基于云和内部部署)的脆弱性,这些脆弱性为我们依赖软件的世界提供了强大的动力-这个世界现在包括娱乐,个人和专业连接。
IT基础结构包含所有相关组件,包括网络,安全性,存储,操作系统,集线器和计算机的链接。每个组件都有许多子组件,例如内存,中央处理器等。此外,云的采用和虚拟化还增加了复杂性。软件定义的网络可以快速,自动地更改基础架构,从而更难跟踪哪个工作负载驻留在哪个虚拟机上并将它们与物理服务器相关联。随时衡量一台机器性能的影响已成为一项严峻的挑战!
在这个数字时代,公司(和人员!)依赖于良好的基础架构来支持其关键功能,例如通信,财务等。停机成本高昂,并且对企业造成损害。这给各种规模的公司带来了更大的压力,要求他们重新考虑其基础架构监视策略。您如何有效地监视随着业务增长而不断扩展的庞大的分布式IT组件?
使用时间序列数据库和机器学习进行预测性基础架构监视
当前的监视工具通常是特定于供应商的,孤立的,并且缺乏对整个基础架构前景的全面了解。随着数量和数据量的不断增长,它们会造成瓶颈和盲点。这些挑战需要一种新的设计,即为分布式计算,数据收集和大规模并行处理而构建的一种新设计,并且需要一种可以从历史中学习并预测停机的停机时间的设计。
设计现代IT基础架构监视平台以实现预测分析的基石包括以下多步骤过程:
1.收集并预处理数据:
一个。从各种来源实时收集数据,包括系统日志,网络流量日志,事件日志以及诸如吞吐量,IOPS和延迟之类的指标。这一步骤具有挑战性,因为应用程序会生成各种格式的数据,并以不同的频率存储数据,而获取数据的API在一个应用程序与另一个应用程序之间是不同的。您将需要一个框架,以广泛的受支持协议和数据格式维持大规模的数据收集。事件驱动的框架,例如Nuclio,OpenFaas,AWS Lambda,Azure Functions
其他人则通过处理数据收集所需的所有操作繁重的工作来应对这些挑战。请记住,除了实时数据外,还需要连续收集用于查找表(例如,设备表)的批处理数据。
b。快速丰富数据,以准备数据以进行更快的分析,并利用外部数据源提供更多见解。这就需要一种非常快速的机制来运行实时流数据和其他数据集联接,同时每秒维持数百万个事件。
C。将大量时间序列数据存储在时间序列数据库(TSDB)中。当每秒的事件数量很大时,此方法特别有效。数据是不可变的,并且插入记录而不是更新记录,从而为系统中的每个更改创建新行。TSDB是用于处理大量实时数据的有效解决方案,并且还提供了针对基于时间的查询进行了优化的查询引擎。也就是说,并非所有数据都应存储在TSDB中。客户通常具有用于数据充实的查找表,并且需要在两种格式之间合并数据。在这些情况下,将查找表存储在关系表或键值表结构中更有意义,同时优化针对键访问实时运行的联接,以保持负载。
2.浏览数据
您可以通过多种方式浏览数据。使用流行的开源TSDB Prometheus来利用其查询引擎进行基于时间的查询是非常普遍的。但是,Prometheus不可扩展,无法存储或分析大型数据集。需要使用具有可扩展数据层的分布式数据平台来解决这些挑战,并在使用Prometheus接口时存储和分析数据。然后,您可以使用可视化工具在Prometheus(例如Grafana)之上生成交互式报告。
3.使用ML获得可行的见解:
最终目标是获得满足业务需求的见解。传统上,这是通过基于规则的工具(例如基于规则)来实现的,该工具在特定事件集上触发警报和事件。例如,如果5分钟内的平均温度超过某个阈值,请通知管理员。但是客户正在寻找更高级的机器学习和预测分析解决方案,这些解决方案可以基于大量指标来识别异常以找到相关性。机器学习和预测分析不仅可以提供基于规则的系统,而且企业仍面临涉及规模和性能的运营挑战。
这听起来复杂吗?对我们来说幸运的是,有些人正在为现代解决方案而思考。当今的端到端数据科学平台使创建自己的智能解决方案的过程变得更加容易。像Iguazio这样的强大数据科学平台,提供了集成工具来设计您自己的实时基础架构监视解决方案,该解决方案超越了传统的被动式TSDB。
能够监视现代IT基础架构的数据科学平台将提供:
●完善的实时预测
●用于关联时间序列数据,运行算法并生成交互式仪表板和操作建议的工具
●强大的TSDB引擎,与Prometheus和其他流行的TSDB API兼容
●多功能性,可在云中,本地或边缘进行操作
●用户可以不受限制地灵活使用喜欢的分析框架(例如Spark)或仪表板工具(例如Grafana)
●更便宜,更简化的方式来容纳大量数据并添加相关历史数据
●支持多种数据模型
●在不损害隐私和数据治理的情况下实现安全的数据共享;使用身份验证,数据安全性,“暗站点”和离线部署
云中断的混乱消息强调了为您的IT基础架构制定复杂的监视策略的重要性。一位《商业内幕》文章认为,谷歌高调停运将影响其市场份额。Google出于可靠性而出售自己,而停运可能使该公司落后于其对手,即亚马逊和微软。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!