当前位置: 首页 > article >正文

AIOps案例 | 历史库异常,如何快速响应与优化?

一、案例背景

2023年5月的某天,某农村商业银行的运维团队在进行每月例行的系统巡检时,遭遇了一次突发的运维事故。当天晚上21:00,系统运行一切正常,交易量稳定在每分钟约5000笔,平均响应时间维持在200毫秒左右。10分钟后,监控系统突然发出告警,显示历史库交易量从每分钟5000笔骤降至1500笔,降幅高达70%。与此同时,平均响应时间从200毫秒飙升至1200毫秒,增幅达500%。

通过快速排查,团队发现问题集中在特定的IP(172.251.32.143)通路中。就在运维团队着手进一步调查时,系统又发出新的告警,提示电子渠道整合平台(A级)出现了与历史库相关的告警信息。

二、故障定位回顾

面对突发的事故,运维团队采用了从底层硬件到上层应用的多维度排查方法。

最终发现这次事故的根因主要集中在两个系统:B级历史库系统和A级电子渠道整合平台。具体影响如下:

  1. 各渠道访问历史库的交易中,有1889笔出现超时情况。

  2. 在问题发生的5分钟内,系统的整体访问成功率下降到了95%,比正常时期的99.99%有明显下滑。

  3. 影响了约3500名用户的交易体验,其中包括780笔工资查询交易和1200笔转账交易。

这次事故虽然持续时间短,但由于发生在业务高峰期,其影响不容忽视。它不仅暴露了系统在高负载下的健壮性问题,也凸显了现有监控和快速响应机制的不足。

三、总结分析

此类事故在金融行业的日常生产运营工作中并不少见,擎创作为老牌运维解决方案提供商,结合过往实践经验提出以下建议。

1.监控系统的全面性和可观测性有待提高

虽然系统能够在问题发生时及时报警,但需要能以应用和业务为驱动来发现和观测故障。如果运维人员能第一时间知道是哪些业务路径发生故障,可能会为处理问题赢得更多时间。

2.问题定位的速度需要进一步提升

尽管团队能够在系统自动恢复后找到根因,但在问题发生的5分钟内,并没有能够及时定位和解决问题。

3.引入智能可观测系统

擎创夏洛克智能可观测中心,提供了以运维对象为核心的一体化观测分析能力,通过统一数据模型,把指标、日志、调用链等多领域的数据有机的组织在一起,结合智能运维算法,帮助用户提高故障发现、处置、以及定位的效率运维,提高系统的稳定性,保障业务的连续性。其中包括智能告警、故障聚类、根因诊断、业务场景分析等功能。

①快速提供根因诊断:提供路径诊断及多维诊断两种方式

其中路径诊断对于该事故就十分适用,它可以通过有向图寻找报错根源,定位故障根因以 及对业务路径的影响范围,适用于特定路径或业务的报错诊断;而多维诊断则通过决策树分析故障所在维度,适用于故障聚集性诊断,即突发大量的故障情况等。

洛克智能可观测中心-根因诊断

②业务场景监控

以业务目标为核心,根据当下生产运营现状提供对应的场景监控,实时监控业务条线场景下的交易码依赖关系,分析请求报错趋势,针对故障可以完成快速根因定位。

夏洛克智能可观测中心-业务场景分析

擎创一体化数智运维解决方案可以根据客户当下运维建设情况,因地制宜的提供对应的建设规划,全面提升系统的稳定性和可靠性,最大限度地减少类似事故的发生,助力业务的运营一帆风顺。

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

 。

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

  行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~


http://www.kler.cn/a/331233.html

相关文章:

  • 老旧小区用电安全保护装置#限流式防火保护器参数介绍#
  • 嵌入式设备常用性能和内存调试指令
  • log4j2漏洞复现(CVE-2021-44228)
  • Ubuntu下ESP32-IDF开发环境搭建
  • JavaScript中的Set、Map、WeakSet和WeakMap
  • 【点估计】之Python实现
  • 【大数据入门 | Hive】Join语句
  • CSS 盒子属性
  • 霍夫曼树及其与B树和决策树的异同
  • 设计模式-生成器模式/建造者模式Builder
  • Python画笔案例-070 绘制通电棒棒
  • 这次PostgreSQL事故后,我把表膨胀清理工具撸了一遍
  • vulnhub-unknowndevice64 2靶机
  • 【MySQL】多表联合查询常见练习题
  • Vue3动态导入后端路由
  • 使用 Vue3 和 Axios 实现 CRUD 操作
  • Linux忘记root用户密码怎么重设密码
  • SpringCloud Config配置中心 SpringCloud Bus消息总线
  • SQL基础教程
  • linux系统解压zip文件名乱码
  • vue3项目执行pnpm update后还原package.json文件后运行报错
  • 7.使用 VSCode 过程中的英语积累 - Terminal 菜单(每一次重点积累 5 个单词)
  • docker快速安装ELK
  • IDEA在git提交时添加忽略文件
  • 【动态规划-分组背包】【hard】力扣2218. 从栈中取出 K 个硬币的最大面值和
  • C++ 类和对象的初步介绍