目前,已经有多家IT,银行公司,在逐步构建AIOps实施和落地。这几年我们也看到了很多有意思的场景的落地,也确确实实给业务带来了很多的价值。 本文主要总结梳理了在现有背景下,如何做好监控告警的智能化, 旨在为智能告警提出可行的解决方案。
痛点基本沿着“异常发现---告警触达---决策分析”的思路演进。
基于规则的告警策略配置,必然导致一个问题:阈值配置过高,容易漏掉系统运行故障;阈值配低,又会带来大量的无效告警,影响运维团队的工作效率,形成很多告警的叨扰。同样,告警检查周期的长短设置也存在类似的问题。往往运维团队为了不 遗漏 告警, 而 提升告警的灵敏度, 导致 告警重复率高达60%。
一个告警问题往往不是1个运维人员可以解决的,大部分的团队都是多 个人参与同一类告警的处理 ,而 同一个告警 就 会被推送到 团队中的 多个运维人员的手中。但是,通常在一些特殊时段只有一个值班 人 员负责处理告警,这就给其他团队成员生活带来了巨大的干扰。因为缺少高效的分派和排班管理机制,加上大量重复的无效信息,这将会在一定程度上造成告警处理的延时和遗漏,引发告警风暴。
如何形成有效的告警分析和决策,而不仅仅是一条告警通知,则是迈向智能化告警的关键 每有一个用户访问 应用系统,应用 都需要 调用链路上 多个 IT单元, 而这其中,有一个环节出现问题, 都有可能导致业务故障。 而 系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警, 这些 告警的相关度高达90% 以上。
方案一:告警配置模版方案
告警配置模板一方面可以让配置阈值方案变得更加简洁, 另外一个方面也是可以逐步把专家配置维护经验,在各个场景进行沉淀。
方案二:智能化检测
智能检测这个话题经常被聊起,每一种算法都可以拿出来单独写一篇文稿。 那业界常用的方法包括:
告警分级方案:
告警收敛方案:
最后,需要强调一下的是,算法在场景应用中,更多的起到帮助人们自动化挖掘出数据中的关系,规律, 但有效制度的建立也是不可缺少的一环。
告警的关联:
支持下钻分析:
根因分析/决策建议:
参考:
http://blog.itpub.net/69948837/viewspace-2724484/
https://www.infoq.cn/article/qta6vcyjvhdoijg5wkze
TOP云 (west.cn)8月3日消息,据眼尖的网友爆料,极品单字符 域名 i.cn已搭建“...
本文转载自微信公众号「武培轩」,作者武培轩 。转载本文请联系武培轩公众号。 ...
数据可视化是数据科学中非常重要的一部分。在探索和理解数据时非常有用。在某些...
我们正处于加密货币的黄金时代。自2009年比特币问世以来,无数替代币和区块链平...
编程框架日新月异,工具平台推陈出新。但有意思的是,代码的坏味道不会因为你使...
你有没有想过? 电话那头声音甜美、对答如流的小姐姐 可能是个机器人。 这并不是...
案例背景 突如其来的新冠病毒肺炎疫情,让全国的师生正在经历着一个非常特殊的寒...
场景介绍 通过CTS云审计服务,完成对公有云帐户对各个云服务资源操作动作和结果...
冯氏集团将借助 IBM 的服务向云端迁移,实现 IT 现代化,创建灵活易用的 IT 基础...
随着Kubernetes已经成为容器编排和调度的事实标准,各大公有云厂商都已经基于Kub...