当前位置：主页 > 查看内容

AIOps：自适应机器学习异常检测

发布时间：2021-07-01 00:00| 有位朋友查看

简介：以下内容来自【2021阿里云开发者大会】中的内容分享本次分享的题目是《AIOps 自适应机器学习异常检测》该分享意在阐述机器学习算法在企业中的落地实践通过算法和算力尽可能的提升企业运维人员的效率为业务的快速发展保驾护航。分享人阿里云SLS 刘贵阳……

以下内容来自【2021阿里云开发者大会】中的内容分享本次分享的题目是《AIOps 自适应机器学习异常检测》该分享意在阐述机器学习算法在企业中的落地实践通过算法和算力尽可能的提升企业运维人员的效率为业务的快速发展保驾护航。

分享人

阿里云SLS 刘贵阳悟冥、胡文杰笃林

接下来正式进入本次分享

业务快速发展和传统监控难以支撑之间的矛盾1. 回顾运维监控人员的日常工作

当一个新业务上线前运维人员都需要明确服务的部署情况确定监控对象以及监控对象的一些可观测性指标并根据此完成相关日志数据的采集和处理这里面会涉及到很多日志采集、指标加工等一系列脏活累活当确定了监控对象的黄金指标后往往都需要先适配一组规则某个接口每分钟的平均请求延时不要超过多少毫秒单位分钟内的错误请求数量不要超过多少等等随着业务逐步对外提供服务以及各种运营活动的加推我们运维监控同学一定会面临两个突出的问题误报太多和漏报的风险那么这两个问题都在现阶段都需要人工介入进行阈值的调整尤其是漏报的问题更加需要人工盯屏的形式设计新的监控规则去覆盖一些事件

上述的场景中还都是在业务指标监控中所涉及到的还没有提到服务的全链路的监控问题服务部署环境中机器的监控问题。

2. 困难和挑战监控对象呈爆炸式增长

我们的上层业务的部署形式逐渐想容器化和微服务化方向演进。我们的应用程序部署有之前的单物理机到单个容器中。这里带来了几个问题

传统的部署模型监控对象较为确定对应的观测指标也比较确定且存活的生命周期较长因此可以较好的完成异常的监控服务在新的架构上部署后其中涉及的组件和模块都增加了很多其大都混部在相同的物理机器上彼此之间的会有较大的影响且服务对象的生命周期偏短较难进行完整的监控

且在公司中往往会有上百的研发人员一般会维护上千的应用和服务每个月多有上百次的变更每分钟会涉及到几十甚至几百GB的监控数据。在这样庞大且复杂的规模下传统的基于规则的监控无法更好的满足服务的稳定性要求。

3. 困难和挑战传统的监控规则泛化能力弱

在我们的服务过程中我们会发现传统监控规则泛化能力弱的几个典型问题

基于人工规则的监控会有漏报、误报、规则阈值无法自适应的问题如第一排中第一张图所示其中时序曲线描述的是一个周期性的批处理作业的CPU利用率的曲线我们可以看到周期性的突刺信号是正常的而图中有两个点是有问题的对于特别到的突刺点来说我们通过阈值的方式是可以较好的抓到的但是对于图中红圈标注的点来说通过规则的形式是很难写出来的第二张图描述的是线上服务的内存的曲线我们可以看到前面是比较平稳的在某个时刻发生变更后机器的内存上涨对于传统的监控规则来说后续的超过阈值的时间点都是异常但是真实的业务场景中更合理的是关注到某个时刻指标发生了突变并且持续了一段时间后趋于稳定那么后续的异常点就不应该持续的报出来新业务的指标监控无法复用现有的监控规则对于上图中我们可以看到两条关于访问请求的时序指标通过几个维度来分析下 Y轴的范围差距是比较大的第一张图是按照K 千来划分的第二张图是按照Mil 百万来划分的我们可以看到指标的波动性还是比较大的且曲线的形态差异较大我们使用的传统的同比、环比、均值等策略无法实现我们的监控预期

自适应时序监控的设计方案

在两年前我们在思考一个事情能否充分利用机器学习的能力来解决监控系统中时序异常检测的问题将更多的基于《规则人工经验》的能力逐步转移到《算法经验知识》的系统能力。让可观测性平台具备自适应、自学习、自反馈的能力。接下来让我们一起来看下SLS在这个问题上的探索。

1. 智能时序系统的基础能力

系统应该具备的基础能力如下准确且全面的发现异常这里要求系统的对于时序异常识别的准确率和召回率都要求较高这个是智能系统需要的最为核心也作为基础的能力同时系统需要具有一定的适应能力因为系统是给“人”来使用的算法判定的结果是通过数值的角度去分析的异常不等同于故障这里我们去区分下不同的定义一个是Incident、一个是Problem 算法的输出结果应该是结构化的且其异常应该具备可比较的分数且分数可以量化到[0, 1]之间便于对接后续的业务系统同时支持较好的扩展能力可支持数十万时序监控对象进行较为复杂的模型监控2. SLS的解决方案

在图中第一部分描述的是我们服务部署环境中所需要的关注的一些服务的相关日志主要包含了程序日志数据、组件日志数据、以及对应的时序指标数据、外带上系统的事件数据等这些数据统一都可以按照Log模型、Metric模型和Trace模型统一存储在SLS平台中。SLS平台提供了丰富的数据处理手段可以针对原始的数据做行处理解决杂乱数据规整、富化、分发的能力同时平台上提供了兼容SQL92的查询分析能力可以快速的定制SQL的调度任务提取相关的指标数据供后续的分析和可视化。用户可以开启智能巡检服务消费结构化的指标数据通过智能算法产生结构化的异常事件通知到用户用户可以对异常事件进行相关的反馈后续我们会进行逐步跟告警管理系统打通解决事件跟踪和关系推断的问题。对于上图中左边数据接入和数据预处理部分、右边告警管理这两部分会有单独的详细介绍这里我们着重介绍下智能巡检服务。3. SLS智能巡检服务简介

具体的算法原理采用无监督学习算法自动识别实体的数据特征根据数据特征选择不同的算法组合针对数据流实时建模完成异常检测任务并根据用户的打标信息训练监督模型实现算法的不断优化提高准确率。具体拆解如图中流程图所示

巡检系统的处理对象是监控指标当监控对象有较多的历史数据时系统会进行时序画像的构建主要是从业务的周期性、趋势性、波动性等几个维度去刻画能较好的学习时序的状态当某个对象的时序数据较少时我们会先退化到统计建模的策略主要去分析指标的局部统计特征当数据逐步累积到一定量后会进行详细的时序画像的构建我们构建的是一个时序的巡检系统处理的对象是实时的数据流逐点送入时序建模 Time2Graph算法会对接我们的异常判别模型输出对应的标准异常事件后会通过钉钉机器人的渠道将结果通知到用户用户可以选择对系统的输出进行反馈平台会自动的收集到您的反馈信息完成特征和标签的对应训练出对于异常事件样本的监督模型将模型应用到异常判别器优化系统给用户的输出真正做到千线千面值得一提的是这套系统中核心的时序建模算法演化自《Time2Graph系列算法》核心作者就是我们团队的胡文杰同学相关论文已经发表在AAAI、WSDM、TKDE顶级数据挖掘会议上感兴趣的各位可以翻阅论文欢迎讨论交流。在SLS平台中的使用展示

智能巡检服务目前已经在线上正式对外发布各位可以查询SLS官方文档提供了详细的操作说明您在使用过程中遇到问题可以联系我们希望时序巡检服务可以解决您在日常监控中反复配置若干规则的繁琐和低效提升运维同学的幸福指数。下面附上一个简单的视频供大家浏览。

本文转自网络，原文链接：https://developer.aliyun.com/article/784991
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：MaxCompute 挑战使用SQL进行序列数据处理 下一篇：直播预告 | 数据库自治服务DAS年度重磅发布

随机推荐

云服务器绑定密钥对 - API 文档

1. 接口描述接口请求域名： cvm.tencentcloudapi.com 。本接口 (AssociateInst...
腾讯云虚拟主机叫什么

腾讯云虚拟主机叫什么？腾讯云现在基本搜不到虚拟主机了，像阿里云也不怎么...
《Spring 手撸专栏》| 开篇介绍，我要带

作者：小傅哥博客： https://bugstack.cn 沉淀、分享、成长，让自己和他人都能...
SLS开放告警简介

背景介绍监控告警系统作为最为常用的服务能够让开发运维人员时刻了解服务的当...
云服务器内存最大多少

云服务器内存最大多少？内存是决定云服务器性能的非常重要的一个参数，内存最...
7种会导致业务失败的数据分析方法

真正的数据价值取决于对业务的洞察力。数据分析是企业拥有的最强大的资源之一。...
步骤二：网络配置_弹性云服务器 ECS_快速

网络配置设置“网络”：在下拉列表中选择可用的虚拟私有云、子网，并设置私有IP...
准备工作_裸金属服务器 BMS_快速入门

在使用裸金属服务器前，您需要完成本文中的准备工作。注册华为云并实名认证为...
Yarn调度器(Scheduler)详解

本文转载自微信公众号「Java大数据与数据仓库」，作者老董。转载本文请联系Java...
每秒处理107万张图片！阿里云打破MLPerf

今天，国际权威AI基准测试MLPerf公布了2021年最新推理测试榜单。图像分类性能测...

AIOps：自适应机器学习异常检测

推荐图文

如何构建业务数据分析体系

腾讯多媒体实验室刘杉：5G时代来临，多媒体快速演进

阿里闪电保护域名：凌晨三点拿下商标域名

Java都到16了，为什么都还在用8，是越做越烂了么？

新增磁盘_云耀云服务器 HECS_用户指南_云硬盘

一序言——Elasticsearch

随机推荐

云服务器绑定密钥对 - API 文档

腾讯云虚拟主机叫什么

《Spring 手撸专栏》| 开篇介绍，我要带

SLS开放告警简介

云服务器内存最大多少

7种会导致业务失败的数据分析方法

步骤二：网络配置_弹性云服务器 ECS_快速

准备工作_裸金属服务器 BMS_快速入门

Yarn调度器(Scheduler)详解

每秒处理107万张图片！阿里云打破MLPerf

关于我们