全部版块 我的主页
论坛 新商科论坛 四区(原工商管理论坛) 行业分析报告
523 0
2019-09-27

01

前 言


当应用程序变慢、业务中断,用户开始投诉... 基础设施、网络、应用、用户终端设备……如何以最快的速度,透视整个IT环境,找到问题根源?


当问题间歇性出现,如何追根溯源,彻底解决哪怕是偶发性问题?



02

对话内容



选型宝:我们注意到Riverbed提出DEM(数字体验管理)这个概念?这个概念背后反映出了Riverbed是怎么样的一种IT运维理念?


杨立军:一个大的背景是,用户对运维管理很困惑,其实我们有很多不同类型的软件工具可以选,甚至我们已经用了很多工具,但是我们好像没有解决运维的核心问题,所谓核心问题我归纳了九个字,说的清、管的住、用的好。


说得清,就是如果出现任何问题的时候,我能够说清楚我业务系统运行的状态,我能很快速的定位问题,然后把这个问题很好地解决,保证我的业务,让我的业务有一个良性的运行状态,即使我们有很多这样的工具,可是我们还是做不到,甚至我们见过有很多用户做了很大笔的投入之后,还是有这样的困惑。


首先我们来讲,一个企业的IT系统运维真的不是说某一个工具就能解决的,因为我们可以延展出来,任何一个复杂的也好,或一个简单应用,至少有三个层面的因素,客户端发起访问的请求,然后经过网络到达了应用端,至少客户端、应用、网络这三个要素。


所以回到我们今天的主题来讲,其实Riverbed提到这个数字体验管理,强调的是一个完整的端到端的,覆盖各领域各层次的完整管理框架,这是我们想跟各位客户来分享的DEM理念,我们想打破传统的管理藩篱,因为传统管理方案,我们知道网络是网络,应用是应用,数据库是数据库,各自管一摊,现在我们希望能够实现端到端的从应用到网络,甚至到客户端完全打通的这样一个管理平台,在这范围之内从客户端发起任何的访问,只要是我们希望能够去定位去查找到这样的一些问题,我们都有根可循、有据可查。




这就是我们的一个理念。所以我们想实现一个打破原有藩篱的架构,实现一个端到端全域的管理。当然在这个过程当中我们的核心是什么?核心的保障是叫数字体验管理,其实我们所有的这些终极目标是让我们客户在访问应用的时候能达到比较好的体验,这是对外的理念。



选型宝:您刚提到两个关键词,一个是端到端。第二可视化。从外部的角度,Riverbed是想把整个IT资源进行一个集成的可视化吗?

杨立军:是的,是这个概念。我们现在简单回顾一下,我们需要一个什么样的可视化?

首先来讲我们需要一个传统意义上的分层可视化,我们最底层是基础设施,基础设施可以理解为我们的网络设备,我们的计算设备存储设备,甚至我们的客户端使用的终端设备,这些组成了我们交付业务所具备的一个底层条件,这是基础设施的管理。这涉及到每个基础设施网源它的健康状态,它的运行状态的合理性的一个检查,这是从我们最底层的。

往上面跑的就是我们的业务,它在交付的过程就更像是网络上面跑的流量,从客户端发起一个请求,通过互联网也好广域网也好,到达了我们的后端系统,后端系统在不同组件之间再进行流转,它跑的都是这种协议,这是我们第二层,再往上是交易。

所以我们把它分为基础设施管理、性能管理,这包括面比较多,再往上是业务管理,项目交付就是业务了,这个是一层逻辑,所以我们需要三层的这样一个交付。

这是纵向,横向又分什么?首先我们从刚才讲了两点一线,客户端应用网络,所以我们首先要从客户端发起这个请求,客户端本身也是我们管理的一个要点,一会儿我们会谈到为什么。客户端发起了请求之后要走过网络,不管你是什么样类型的网络,是互联网、是专网,它要经过一个很长的传输路径到达数据中心,到达数据中心又会经过一系列的像负载均衡、防火墙、VPN,等等一系列的设备再到我们应用服务器区、服务器又可能涉及到多层的处理,所以这是一条长长的业务路径。

这就是我们强调的第二种意义的端到端,一是多层,二是端到端。只有在这么一个二维的空间里,才能够实现我们希望实现的这种全域的覆盖。



选型宝: Riverbed可以针对每一个应用,每一次交易来监测它的数字体验。那么什么场景下用户需要进行这么细颗粒度的检测?然后这种监测能够带来的价值是怎样的?


杨立军:其实就我的理解,因为管理一个是实时层面的,一个是回溯层面,这两个层面来看。实施层面来讲,更多的是说我在业务系统运行当中,我及时发现一些问题隐患,然后及时的我就去干预,去处理。让客户在还没有严重感知前提下,就已经修复了这个问题,这是最理想。


还有一种,有一些问题可能不能够避免,当这些问题出现了以后,我们要去查根排因,排除这个问题的原因,这是要回溯。


其实不管是实时的也好,还是回溯也好,在一个企业范围之内,我听到客户讲的这个需求,就是我们不希望遗漏每一比访问交易,一方面从业务的角度来说,客户希望能够保存我每一笔的交易;从运维的角度来说,是我们能够有效的进行问题的追溯,然后跟根因的查找,帮助快速定位问题,然后解决问题。


我们其实发现即使有很多用户已经用了很好的工具,但由于各种原因没有采集到原始数据,没有采到完整的数据,其实也会对排障造成一定的影响。


我们在帮客户排障的时候,通常会发现你在数据采集上面有些遗漏。比方说你数据不完整,比如说你只采集了单边的数据,或者是采集异步的数据。所谓异步数据就是说这个数据的一部分流量你采到了,另外一部分回去的流量,它从另外一边走的,你没采到,这些都会影响具体排障。



选型宝:谈谈AI,AI怎么去帮助我们提高运维效率?


杨立军:这是特别好的问题,其实这也是很多用户在跟我们讨论的时候会谈到的。举个简单例子,一个防火墙可能在一个小时之内产生的log可能达到几个G,人去分析这几个G的数据可能要两周以上,但是我真的花两周时间去分析完数据之后,这个事情早已经过去了。


其实到我们的性能管理领域也是这样的问题,刚才讲了,我们全域的管理,不管是从用户端网络,还是到APM还是我们的基础设施。这几个层面都会在数据测量监控过程中,产生大量的原始数据,同时产生大量的分析数据,这些分析数据是海量的。原来的情况下,这些工具分析的数据还可以给我们的管理员自己去分析去看,现在数据送过来以后,其实已经远远超出我们人能处理的能力了。


从这过程当中需要我们有一定的自我分析能力,那这可能就是,您提的AI作用,那AI在整个性能管理领域,其实也提到一个非常高的高度上来了,像Gartner在定义整个行业的技术领域的时候,谈到AIOPS,其实大方向上来说,我们就是要实现AIOPS。我们要对这些数据,不但能够准确及时的测量产生送出来,存储下来,我们还有一个实时的,包括回溯的这种分析能力,我理解是对AI的这样一个定位。


那整个性能管理领域。其实AI最近几年才开始这么讲。在前几年,其实Riverbed的这样的厂商,已经在做类似的工作了,最早的方式是说基线,基线这块,其实是一个很大的工作量,即使我们手工定义的话工作量也非常大。如果再去跟踪它,又是一个长期的工作,所以是一个非常消耗人力资源的这么一个领域。我们刚才谈到几个领域的指标数据,其实在几年以前我们就已经开始做这种机器学习,当时我们定位叫行为学习,就是形成一个动态基线。

这是动态的对同样一个指标,它可能只在周一的早晨是那个值,周二的早晨,可是另外一个值。一般机器学习要我们通常需要一段时间,至少两周,学习整个运维的规律。

所以机器学习阈值其实作用是非常大的,它能够很大程度的解放我们的生产力,解放我们人力在这上面的一些投入。这还只是一个开始,后面还会有指标的关联分析,现在我们也在做这样的探索,我们的产品已经有这样的形态了,当某项指标异常的时候,我只是单机一键关联分析,它会把这个指标相关联的、分布相近的所有其他指标列出来,这样对于你的问题定位就有很好的帮助,我们也是朝着这个深度的智能学习的方向在发展和探索。


我们用户现在也有一些愿景,和我们在一起交流的时候,他们希望未来这个系统真的是自己在运行,让系统自己通知人,我今天系统运行的怎么样?哪些地方有问题,如果发生什么的话,会影响哪些业务或者哪些节点,当然这是一个愿景,但是既然我们能想到,只要我们技术手段慢慢的去发展,相信有一天它就能够实现。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群