运维智能体的可行性研究
什么是运维智能体
当今绝大多数应用系统都是基于分布式微服务构建的,这种应用系统的好处在于可以并行研发和发布,但是挑战在于稳定性保障的难度系数成倍增加。Google 确立的SRE 工程体系成为行业最佳实践之后,对于如何运营大规模分布式在线系统大家有了一致的标准,那就是基于云原生的可观测体系、容量管理体系和变更风险防控体系等三大核心体系。
分布式系统稳定版保障的难度随着规模呈指数增长,一般认为 SRE 是对整个分布式系统的可用性理解是最深刻的,对于系统 GMV、流量、QPS/TPS 等做到胸中有丘壑,在出现故障的第一时间,他们的判断是最有价值的。不得不说,在 AI 出现之前这种需要经验沉淀的工种,确实是有着天然的无法替代性。但是,AI 赋予了分布式系统的观测体系灵魂,观测体系在看到分布式系统发生了什么之后,能够理解发生这些现象的原因,并且对于如何恢复正常,可以给出超越 SRE 的专家建议。
所以,运维智能体是一种实时观察分布式系统、实时从系统的事件中学习、能够比SRE更高效率地做根因分析并给出恢复正常的可行操作指导意见的 AI Agent。
运维智能体的价值
运维的智能化是必然趋势
自从 Kubernetes 这样的运维标准化平台诞生那天起,基于流量的弹性伸缩这件事让大量的传统运维者工作量减少 80%,运维的自动化基本上成为了事实,果然云原生应用和标准的基于 Kubernetes 的应用运行平台,让云大厂全面接管了传统运维的工作,站在今天这样的一个时间节点上,我们给出的判断是运维智能化是必然趋势。
运维智能化的落地场景
运维的动作执行标准化之后,但是每一个动作之后的决策过程却是根据 SRE 多年的工作经验得来的,特别是特定行业的应用系统,如在线金融系统。运维动作对系统的影响往往是巨大的,而且动作的影响往往是执行者并不明确的,一系列的连锁反应导致系统出现预期之外的情况,大多数情况下这种意外的情况意味着故障。
智能运维的智能主要体现在:
1)能够感知全局,即某个局部的变化对全局的影响是什么,这个过程类似一个函数,函数内部是一个复杂过程,输出全局的影响面。
2)洞察事件关联,当某个局部的变更触发全局一系列事件时,可以从系统的表现中快速“推导”出这些事件之间的关联,比如某个配置参数的调整,导致支付成功率下跌,这个中间的传递链条可以快速被溯源。
3)学习过往的经验,可以从过往事件的处理过程中学习到专家经验,最终远远超出SRE 的判断力,比如通过数据库错误日志,分析出可能是哪个 SQL 出现问题,然后给出优化建议。
未完待续!