试试智能体工作流,自动化搞定运维故障排查
APO 1.5.0版本全新推出的智能体工作流功能,让运维经验不再零散!只需将日常的运维操作和故障排查经验转化为标准化流程,就能一键复用,效率翻倍,从此告别重复劳动,把时间留给更有价值的创新工作。更贴心的是,APO无需改造现有监控系统,轻松对接即可使用,真正实现“开箱即用”。
下面带大家快速上手这一功能,先从官方内置的实用工作流开始体验!
「开箱即用」的工作流
我们精心打磨了两款告警处理神器:告警有效性分析和告警根因分析。它们就像24小时在线的智能助手,帮你自动处理告警,让运维工作事半功倍!
1. 告警有效性分析:告别「无效告警轰炸」
面对海量告警信息,这个工作流能快速识别哪些告警需要紧急处理,哪些可以暂缓。有了它,你既能从容应对关键问题,又能放心设置更灵敏的告警规则,在故障发生时自动收集完整上下文,为后续排查打下坚实基础。
2. 根因分析:5分钟定位问题源头
触发告警后,这个工作流会立即行动:自动关联主机、服务或Pod的上下文数据,分析指标异常,并通过「北极星指标」进行多维度根因排查。无论是服务延迟激增还是资源异常波动,它都能帮你快速锁定问题根源,让故障修复效率提升80%!
后续我们会详细解析这些工作流的设计逻辑和实战效果。所有内置流程都支持按需调整,灵活适配你的业务场景,打造专属智能运维助手!
手把手教你搭建专属工作流
第一步:进入工作流平台
登录APO后,点击左侧菜单栏的「工作流」进入编辑页面。
(若未找到入口,请确认版本≥1.5.0,并检查管理员是否在「系统管理」-「菜单」中开启了该功能)
在这里呈现了很多内置的工作流,可以根据需求直接修改这些工作流,也可以从零开始根据专家经验构建属于自己的流程。
第二步:创建工作流
这里我们从零开始创建一个工作流。点击“创建空白应用”,在弹出的页面中输入应用名称,点击“创建”进入工作流编辑页面。
第三步:拖拽节点,连接流程
编辑界面左侧为功能节点库,通过鼠标拖拽即可自由组合流程,就像搭积木一样简单!将画布上的节点连接起来,就完成了工作流的创建。
在构建工作流时需要注意以下几点:
- 填写每个节点的输入参数;
- 使用大模型节点前,需在设置中配置API权限;
- 通过「检查列表」实时排查流程逻辑问题;
- 阶段性点击「运行」测试流程是否符合预期。
APO 工作流平台基于开源项目 Dify 开发,平台本身的使用在 Dify 官网有详尽的文档,这里重点介绍APO专为可观测性场景深度优化的功能:数据查询节点、异常检测节点和数据验证图表。
数据查询节点:一键调取全维度数据
可观测性平台的基础能力是展示数据并分析问题,因此数据查询是工作流最基本的能力。APO将各类丰富的数据查询工具集成到了工作流编排平台中,方便用户快速将需要查看的数据放入工作流中。
通过搜索可以快速找到你需要的数据,同时可以输入查询参数来检查当前数据:
异常检测节点:智能识别潜在风险
使用APO内置的异常检测工具,可以在查询数据后判断数据是否存在异常,针对异常数据能够进一步执行工作流分析。目前内置的异常检测工具包括阈值判断、趋势判断、分位数检测等,未来还需进一步丰富异常检测工具。
除了使用内置的异常检测节点,你还可以将数据输入大模型,让AI辅助判断异常类型,也有不错的效果!
数据验证图表:结果可视化,一目了然
回溯工作流的执行结果有助于我们理解执行过程。 APO采用图表的方式展示可观测性数据,大大增强了结果的可解释性。APO为每一类数据都设计了对应的图表,方便检查数据内容:指标数据用折线图展示趋势,链路数据用拓扑图呈现依赖关系。每一步分析结果清晰可见,轻松回溯排查逻辑。
通过智能体工作流,APO让运维从「救火式响应」进阶为「自动化治理」。现在就动手搭建你的第一个工作流,体验高效运维的乐趣吧!下一篇文章,我们将手把手展示如何构建「告警诊断」工作流,敬请期待!