当前位置:主页 > 查看内容

SLS新版本告警入门——告警管理概述

发布时间:2021-06-16 00:00| 位朋友查看

简介:SLS旧版本告警概述 日志服务支持为查询或分析结果设置告警。设置告警后 日志服务定期检查查询或分析结果 当检查结果满足预设条件时发送告警通知 实现实时的服务状态监控。 在旧版本的告警中 告警规则以及通知的配置都很简单直观 但是也存在着一些痛点 主要如……
SLS旧版本告警概述

日志服务支持为查询或分析结果设置告警。设置告警后 日志服务定期检查查询或分析结果 当检查结果满足预设条件时发送告警通知 实现实时的服务状态监控

image

在旧版本的告警中 告警规则以及通知的配置都很简单直观 但是也存在着一些痛点 主要如下

通知配置无法复用。例如手机号、邮箱、Webhook或者钉钉机器人的地址、通知内容等信息。假如多个告警需要发给相同的人 发送相同的通知内容 就需要将用户联系方式以及通知内容配置多次 带来了很多额外的配置负担。通知功能相对较弱 不支持动态的通知策略。例如 多人值班根据是否工作时间选择不同的通知渠道或者通知给不同的人根据告警本身属性 例如严重度等 通知到不同的人容易产生告警风暴。例如某个服务接口挂掉 那么所有依赖该服务的其它服务都可能报错触发告警 此时就会产生大量的通知 但是无法进行聚合和过滤。缺少一些更高级、更灵活的编排功能。等等…SLS新版本告警概述

为了解决上述种种存在的痛点 我们对SLS的告警功能进行了升级 提供了更加强大的功能。可以完美解决以上的一些痛点。例如

高级、灵活的编排机制 告警策略 告警路由合并 避免告警风暴告警抑制 处理告警之间的互相影响告警静默 预期内告警可以不发通知通知基础资源管理用户管理 手机号、邮箱的复用用户组管理 管理一组用户值班组管理 提供动态灵活的值班机制日历管理 支持工作时间配置以及国际化时区内容模板管理 可以复用通知内容通知管理 行动策略 通过什么渠道 短信电话、邮件、钉钉、Webhook、阿里云消息中心发送给谁 选择用户、用户组或者值班组发送什么内容 选择内容模板其它配置 例如发送时段 是否是工作时间 、钉钉机器人是否要 某个用户、等等


完整的介绍可以参考 什么是日志服务告警 整体的功能架构参考如下


image


本文主要讲解其中告警管理和通知管理部分内容。

告警管理流程

通常来说 如果要快速了解一个事物 那么从整体上了解它的脉络和结构 然后再逐部分细化深究 会起到不错的效果。因为为了了解SLS新版本告警的处理流程 我们需要先从整体上来看一下 告警触发后 究竟经历了什么。


在这个过程中 我们只需要牢记两个东西即可 告警策略、行动策略。其它一切都是围绕着这两种策略来进行的。整体上的流程如下图所示


image


简而言之 告警策略就是对告警进行编排管理 行动策略是处理如何通知的问题。这么想的话 事情就变得简单起来 也就是说 当告警出发后 需要先决定哪些告警要发 然后再决定要发给谁 最后就是用户收到了通知。


其中告警策略通过路由合并、抑制和静默机制 不仅解决了哪些告警要发送的问题 同时对它们进行了合并 从而可以达到批量发送通知的效果 避免用户同一时间收到大量的通知。而行动策略不仅解决了复用的问题 还提供了更强大的动态发送机制。


为了达到告警策略和行动策略的强大且灵活的特性 我们提供了一套可视化图的方式来进行配置 从而可以很直观地进行各种条件相关的配置。

image


到此为止 我们可以总结一下

告警管理的核心就是告警策略和行动策略告警策略和行动策略 都是基于可视化交互表单的方式来进行配置


关于它们的具体使用和配置 我们会在接下来的文章中进行详细的介绍。


本文转自网络,原文链接:https://developer.aliyun.com/article/784708
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐