当前位置:主页 > 查看内容

SLS新版告警入门-监控OSS访问日志

发布时间:2021-06-09 00:00| 位朋友查看

简介:背景 客户A是一家多媒体类公司 主要产品有短视频App 用户可以在上面发短视频 其他用户可以看到用户发的短视频 客户A使用了阿里云OSS来存储用户产生的短视频 App每天的用户活动具有一定周期性 一般情况下深夜的PV较低 其他时段PV较高。一个典型的pv类似下图。……
背景

客户A是一家多媒体类公司 主要产品有短视频App 用户可以在上面发短视频 其他用户可以看到用户发的短视频 客户A使用了阿里云OSS来存储用户产生的短视频 App每天的用户活动具有一定周期性 一般情况下深夜的PV较低 其他时段PV较高。一个典型的pv类似下图。

image

每天9点-10点之间的PV访问基本持平 如果5号9点-10点的PV是50万 6号9点-10点的PV是51万可以理解为正常波动 如果6号9-10点的PV突然变成了100万或者20万 应该告警出来 以提醒运营或者开发人员可能会出现问题

image

本文将以此为背景 配置SLS告警 来监控PV日环比是否有陡增或陡降 如果出现陡增或陡降 比如陡增10%或者陡降10% 发出告警 并发送到钉钉机器人

主要步骤设置监控目标 OSS访问日志PV日环比变化配置告警规则 设置触发告警阈值设置行动策略 设置告警触发后的通知渠道接收告警通知


配置告警查询OSS访问PV昨日环比如果未接入OSS访问日志 可以使用模拟接入来生成OSS访问日志 参考接入OSS访问日志后 在查询分析中 输入如下语句

__topic__: oss_access_log and http_status 400 | select diff[1] as curr, diff[2] as pre, round(diff[3]*100 - 100, 2) as ratio from ( select compare(pv, 86400) as diff from (SELECT count(client_ip) AS PV from log))

compare(列名, N) 用于对比当前时间周期内的结果 与N秒之前的时间周期内的计算结果 列名 目标列的列名。该列的值必须为double类型或long类型。返回值为数据[当前值,N秒前的值,当前值与N秒前的值的比值]通过 SELECT count(client_ip) AS PV from log求出当前时间周期 比如5分钟 的pv通过compare(pv, 86400)求出当前5分钟的pv 与一天前 86400秒 的同时期的5分钟的环比数据通过select diff[1] as curr, diff[2] as pre, round(diff[3]*100 - 100, 2) as ratio 求出当前5分钟pv curr , 昨天同时刻的pv pre 今天比昨天pv的增加百分比 ratio 查询结果示例

image

配置告警规则在上述查询页面中 点击右上角另存为告警

image

首次配置 每个用户仅需配置一次 需要选择告警中心Project的存储位置 告警中心Project中默认有一个internal-alert-center-log的logstore 免费 会存储一些告警的重要日志 还有三个重要报表供查询分析

image


接下来将对结果中的ratio进行监控 如果超过一定阈值 升高10%或者降低10% 将要发出告警给指定的钉钉机器人。配置告警规则名 触发条件 和添加标注

image

触发条件这里设置的是如果PV的环比飙高10%或者降低了10% 【触发条件文档】.触发条件设置为ratio (-10) || ratio 10 对于负数 加上括号 【语法文档】标注默认包含标题和描述 在标题和描述中我们可以引用查询结果中的变量curr, pre, ratio 标注标题 OSS访问PV抖动过大标题描述 OSS访问PV:${curr} 抖动为${ratio}% 昨天PV:${pre}?


新增行动策略

行动策略是指告警触发后 需要执行什么动作 比如可以发送邮件 发送钉钉 调用webhook等 这里以首次配置行动策略为例 来讲如何新增行动策略。

点击新增 会跳转到创建行动策略页面 当前页面不要关闭。

image

接下来在界面上配置行动策略 填写行动策略ID和行动策略名称 点击行动的小icon(上图红框位置) 添加通知渠道

image

这里通知渠道例子使用钉钉机器人来通知 需要事先配置好钉钉机器人 注意钉钉机器人的安全设置 可以启用自定义关键词 填入“告警” 行动组 选择渠道钉钉 请求地址写钉钉机器人的Webhook 内容模板选择默认模板 关于内容模板可以【参考

image

点击结束按钮
image会增加一个结束节点

image

点击确认按钮 即创建好了行动策略

image



配置行动策略创建完行动策略 返回告警规则页面 点击告警策略的刷新按钮image点击行动策略的下拉框 选择刚才创建的行动策略

image

其他保持默认 点击确认按钮 保存告警规则接收告警通知等待5分钟 在钉钉中可以收到告警消息 点击查询详情可以跳转到告警执行时刻的日志查询页面 点击屏蔽5分钟可以跳转到告警规则页面。

image


常见问题如果想尽快收到告警 可以在配置告警规则步骤中 将检查频率设置为1分钟 触发条件设置为ratio (-1) || ratio 1 这样更容易触发告警 昨日环比用的compare(pv, 86400) 在模拟数据时 可能还没有昨天的数据 这时候可以将对比时间窗口减小 比如使用compare(pv, 120)来表示环比前2分钟的数据 钉钉机器人未收到告警可以排查是否设置了安全关键词


至此 一个监控OSS PV昨日环比抖动的告警例子就完成了。这里只是一个简单的告警项目 演示了告警的一些基本功能 SLS告警具有非常强大的功能 新版告警提供对日志、时序等各类数据的告警监控 亦可接受三方告警 对告警进行降噪、事件管理、通知管理等 新增40 功能场景 充分考虑研发、运维、安全以及运营人员的告警监控运维需求。【参考


更多参考什么是日志服务告警【链接】告警监控 创建告警规则【链接】告警管理 创建告警规则【链接】用户管理 创建用户及用户组【链接】通知管理【链接】进一步参考SLS 日志服务 云原生观测分析平台 https://www.aliyun.com/product/slsSLS新版告警文档首页 https://help.aliyun.com/document_detail/207609.html欢迎扫群加入阿里云-日志服务 SLS 技术交流 集团同学请直接搜索群号11702236加入 , 获得第一手资料与支持后续系列直播与培训视频会同步到B站 敬请留意

image


本文转自网络,原文链接:https://developer.aliyun.com/article/784592
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐