从1小时到3分钟,解决核心业务系统故障,猎豹一击即中!

2019-11-15 13:23:07

来源:锐捷网络

如今,数字系统已经成为各大企业的“中枢神经”,和企业生产、运行息息相关。一旦出现故障,就可能造成无法计算的损失。但业务及应用系统繁多、基础架构环境复杂、问题难以定位,这是运维工程师面临的现实问题。常常加班、到处“救火”,疲于奔命,这似乎是运维人员的工作常态。
      如何保障企业的“中枢神经”高效、稳定运行?下面的案例或许可以给出一个答案。??

       突发:BPMS系统故障!组织效率全面下降
2019年9月19日下午5点,某大型制造类企业,大量员工电话报障到IT部门反映BPMS系统出现打不开页面的情况。BPMS系统是该企业的核心业务应用,该业务出现问题时,产品流程管理、人力资源管理、财务管理、市场营销、采购与供应链等生产活动都会受到严重影响,这一问题属于重大故障。

       通常情况下,运维人员在处理此类事故时,都会先登录网络确认问题,再通过网络、主机、应用一一检查,但当这些都正常时,依然找不访问异常情况。从发现故障、分析定位到处理故障、再到持续优化,整个过程通常要耗费1小时以上的时间,组织工作效率全面下降,增加企业运营的隐性成本,部门间的抱怨投诉不断升级……

       猎豹出击,只需3分钟解决问题
       幸运的是,该企业在今年年初部署了猎豹,在这次故障发生的时刻,猎豹已经产生告警并通知了运维人员。全程只用了3分钟,业务就恢复了正常。下面我们来看一下猎豹是怎么做到的?
       第1分钟:运维人员通过邮件或者短信接收到猎豹发出的告警通知,发现问题。

       第2分钟:运维人员通过猎豹业务分段定位功能,检测网络、DNS都没有问题,故障源直接锁定业务应用本身。

       第3分钟:运维人员通过猎豹的历史回溯分析,找到本起故障的主要原因——服务器拒绝用户的访问请求,导致用户无法访问BPMS系统。最终经排查原来是由于数据库性能下降导致的。

       以上,只需要3分钟,就完成从问题的发现、分析到处理的故障处理全过程,问题解决的成本从小时级降低到分钟级,大大降低了业务故障的持续时间,也降低了企业因业务中断带来的损失。

       客户这样反馈
       该企业CIO(首席信息官)张总这样评价猎豹:分段定位功能非常实用,可以帮我们缩小范围,快速定位到责任人;而且通过对历史数据的回溯分析,帮助我们事后分析时有据可依,这一点上也符合等保2.0的需求。
       这些问题,也可以通过猎豹解决
       除了上述的情况,还有许多类似问题,也可以通过猎豹快速解决:
       运维团队频频被投诉,甚至被领导投诉,希望能够做到主动运维,在领导之前感知到问题;

       业务访问异常时,网络正常,网络运维人员需要自证;
       故障恢复了,无法还原,无法分析,最后不了了之;
       
需要过等保2.0,等保2.0中有关于流量回溯方面的考核加分。
       猎豹智能运维平台,是锐捷RIIL推出的又一运维利器,他可以:

       站在最终用户的视角上评估业务应用的好坏,及时感知用户的访问体验;
       快速界定责任人,是网络问题,还是业务问题,以便快速处理;
       
记录并存储用户与业务应用的全量交互数据,以便于对历史数据的回溯分析。
       猎豹智能运维平台在锐捷网络2019年共建渠道大会上的“智能运维”展区精彩亮相,还有敲可爱的故障医生“大保“和智能机器人”R妹“萌翻众人,跟着小编一起来感受一下现场的温度!
图:RIIL“野生”代言人—吉祥三宝
图:RIIL被围观啦
图:就问你“猎豹”产品经理美不美

图:大保、R妹跟远道而来的朋友合影
<