本节重点介绍 :
- 告警抑制
- 配置演示:critical告警触发了就抑制warning的
告警抑制
应用场景
- 如果某些其他警报已经触发,则抑制某些警报的通知。
- 多用于某些高等级的告警已触发,然后低等级的被抑制
- 如机器宕机告警触发,则机器上的进程存活监控都被抑制
- 如region基础网络告警触发,region内部的服务端口探活都被抑制
配置
- 告警中同一个机器
node_name
出发的 critical告警要抑制warning的
inhibit_rules:
- source_match:
severity: 'critical'
target_match:
severity: 'warning'
equal: ['node_name']
- 添加到alertmanager配置文件中并 reload
重启prometheus和alertmanager
systemctl restart prometheus
systemctl restart alertmanager
期望现象
- 相同node_name的多条告警,当severity='critical’触发时抑制 severity='warning’的
- 即 severity='warning’不会触发,对应的就是mysql的不会触发,node的会触发
真实现象
- 真实图片举例
- 5002 没收收到告警,即mysql的不会触发,即 severity='warning’没有触发
- 5001 和 5003 能收到node的告警 ,即 severity='critical’触发了,并且抑制了severity='warning’的
本节重点总结 :
- 告警抑制
- 配置演示:critical告警触发了就抑制warning的