当前位置:主页 > 查看内容

SLS新版本告警入门——告警策略_抑制和静默

发布时间:2021-06-22 00:00| 位朋友查看

简介:概述 在告警管理的过程中 除了通过路由合并来进行降噪 减少通知次数之外 还有一些更加高级的场景 例如需要暂时不发送通知。这就是告警抑制和告警静默所提供的功能。 告警静默 告警静默用来阻止一段时间内符合特定规则的告警发出通知。例如某个时间段内 某个……
概述

在告警管理的过程中 除了通过路由合并来进行降噪 减少通知次数之外 还有一些更加高级的场景 例如需要暂时不发送通知。这就是告警抑制和告警静默所提供的功能。

告警静默

告警静默用来阻止一段时间内符合特定规则的告警发出通知。例如某个时间段内 某个测试集群在维护 会产生一些预期内的告警 此时因为这些告警是在预期之内的 因此没有通知的必要 那么就可以通过配置静默规则来阻止通知的发送。


例如

符合特定规则 告警标签 env 的值为 test一段时间 2021-06-22 00:00:00 ~ 2021-06-22 12:00:00


那么配置参考为

1.png

当然 也可以进行反向配置 例如配置只接受满足条件的告警 对于其它不符合条件的告警都不通知。继续上面的例子 假如这段时间内我们只接收标签 env 为 prod 的告警 对于其它环境的告警都不接收通知 那么可以配置为

2.png

告警抑制

告警抑制与告警静默比较类似 最终效果也是不发送某些告警通知。与静默相比 抑制是一个动态的作用 表示的是告警之间的相互影响。例如某个集群网络故障可能导致大量的服务调用错误 此时根本原因是网络故障 因此可以暂时忽略服务调用错误 只接收网络故障的告警通知 从而可以只收到最根本的错误原因 有利于快速定位和恢复。或者当产生了严重的告警的时候 可以暂时不接收低级别的故障 避免被打扰到。


由于抑制表示的是告警之间的相互影响 因此抑制是具有动态时效性的。也就是说 产生抑制的告警 一旦恢复了 那么这个抑制的作用也就消失了。因此 抑制作用的时间 其实是和产生抑制的告警的生命周期相对应的。


例如我们配置高严重度的告警抑制低级别的告警 那么可以配置如下

3.png

另外需要注意的是 抑制的生效前提是 两个告警要处于同一个合并集合内。例如下面的示例

4.png

抑制和静默的关系

从本质上来说 抑制其实是产生了一条动态的静默规则 最终的效果都是在通知发送之前 根据静默规则 静态的静默规则以及抑制产生的动态静默规则 进行过滤 然后只发送过滤后的告警通知。

最后 如果您还想了解更多智能运维前沿资讯 欢迎您报名参加【数智创新行·智能运维专场】。

6月25日|上海·西岸国际人工智能中心

数智创新行上海站·智能运维专场

阿里云将带来云原生智能运维解决方案 满足海量事件有效感知、高效响应 可观测数据统一分析、故障定位 以及基于AI的异常检测等需求 助力企业构建自己的运维平台 成为开发、运维人员高效可靠的助手。

扫描海报二维码或点击下方链接报名 期待您一起开启智能运维新时代

https://www.aliyun.com/page-source//developer/special/osssalon

20210625_智能运维专场.png


本文转自网络,原文链接:https://developer.aliyun.com/article/784823
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐