日志服务支持为查询或分析结果设置告警。设置告警后 日志服务定期检查查询或分析结果 当检查结果满足预设条件时发送告警通知 实现实时的服务状态监控。
在旧版本的告警中 告警规则以及通知的配置都很简单直观 但是也存在着一些痛点 主要如下
通知配置无法复用。例如手机号、邮箱、Webhook或者钉钉机器人的地址、通知内容等信息。假如多个告警需要发给相同的人 发送相同的通知内容 就需要将用户联系方式以及通知内容配置多次 带来了很多额外的配置负担。通知功能相对较弱 不支持动态的通知策略。例如 多人值班根据是否工作时间选择不同的通知渠道或者通知给不同的人根据告警本身属性 例如严重度等 通知到不同的人容易产生告警风暴。例如某个服务接口挂掉 那么所有依赖该服务的其它服务都可能报错触发告警 此时就会产生大量的通知 但是无法进行聚合和过滤。缺少一些更高级、更灵活的编排功能。等等…SLS新版本告警概述为了解决上述种种存在的痛点 我们对SLS的告警功能进行了升级 提供了更加强大的功能。可以完美解决以上的一些痛点。例如
高级、灵活的编排机制 告警策略 告警路由合并 避免告警风暴告警抑制 处理告警之间的互相影响告警静默 预期内告警可以不发通知通知基础资源管理用户管理 手机号、邮箱的复用用户组管理 管理一组用户值班组管理 提供动态灵活的值班机制日历管理 支持工作时间配置以及国际化时区内容模板管理 可以复用通知内容通知管理 行动策略 通过什么渠道 短信、电话、邮件、钉钉、Webhook、阿里云消息中心发送给谁 选择用户、用户组或者值班组发送什么内容 选择内容模板其它配置 例如发送时段 是否是工作时间 、钉钉机器人是否要 某个用户、等等完整的介绍可以参考 什么是日志服务告警 整体的功能架构参考如下
本文主要讲解其中告警管理和通知管理部分内容。
告警管理流程通常来说 如果要快速了解一个事物 那么从整体上了解它的脉络和结构 然后再逐部分细化深究 会起到不错的效果。因为为了了解SLS新版本告警的处理流程 我们需要先从整体上来看一下 告警触发后 究竟经历了什么。
在这个过程中 我们只需要牢记两个东西即可 告警策略、行动策略。其它一切都是围绕着这两种策略来进行的。整体上的流程如下图所示
简而言之 告警策略就是对告警进行编排管理 行动策略是处理如何通知的问题。这么想的话 事情就变得简单起来 也就是说 当告警出发后 需要先决定哪些告警要发 然后再决定要发给谁 最后就是用户收到了通知。
其中告警策略通过路由合并、抑制和静默机制 不仅解决了哪些告警要发送的问题 同时对它们进行了合并 从而可以达到批量发送通知的效果 避免用户同一时间收到大量的通知。而行动策略不仅解决了复用的问题 还提供了更强大的动态发送机制。
为了达到告警策略和行动策略的强大且灵活的特性 我们提供了一套可视化图的方式来进行配置 从而可以很直观地进行各种条件相关的配置。
到此为止 我们可以总结一下
告警管理的核心就是告警策略和行动策略告警策略和行动策略 都是基于可视化交互表单的方式来进行配置关于它们的具体使用和配置 我们会在接下来的文章中进行详细的介绍。
本文转载自微信公众号「bugstack虫洞栈」,作者小傅哥 。转载本文请联系bugstack...
在Python开发过程中,我们难免会遇到多重条件判断的情况的情况,此时除了用很多...
背景 我们知道 如果在Kubernetes中支持GPU设备调度 需要做如下的工作 节点上安装...
TIOBE 公布了 2021 年 3 月的编程语言排行榜。 本月 TIOBE 指数没有什么有趣的变...
近几年,互联网行业蓬勃发展,在互联网浪潮的冲击下,互联网创业已成为一种比较...
想了解更多内容,请访问: 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...
前言 统计科学家使用交互式的统计工具(比如R)来回答数据中的问题,获得全景的认...
本文转载自公众号读芯术(ID:AI_Discovery)。 这一刻你正在应对什么挑战?这位前...
溢价 域名 的续费价格如何?通常来说,因为溢价域名的价值高于普通域名,所以溢...
基本介绍 给定 n 个权值作为 n 个叶子节点,构造一颗二叉树,若该树的带权路径长...