当前位置：主页 > 查看内容

云原生可观测最佳实践路径解读

发布时间：2021-07-01 00:00| 有位朋友查看

简介：作者焦方飞这几年大家会发现业界频繁提到可观测很多人会问可观测跟之前传统的监测到底有什么区别呢可观测不是一个新的概念它其实是传统监测的扩展。传统监测领域更多是基于外部的视角去看一个系统去看一些系统的行为从而规划整个系统的失败模型它更……

作者焦方飞

这几年大家会发现业界频繁提到可观测很多人会问可观测跟之前传统的监测到底有什么区别呢可观测不是一个新的概念它其实是传统监测的扩展。传统监测领域更多是基于外部的视角去看一个系统去看一些系统的行为从而规划整个系统的失败模型它更多的是从运维的视角来看。今天我们把这个概念从监测扩展到可观测其实可观测更多是从系统内部的白盒化思路去看系统内部的运行状况是由内往外的同时结合多种观测手段包括我们传统说的Metrics指标从而做一个非常深入的分析了解整个系统运行状态的根因。

另外从使用者角度来讲传统监测更多是从运维角度一些传统的Metric维度指标从外部进行观测知道里面发生了什么。云原生可观测是贯穿于整个应用甚至整个应用开发的生命周期包括开发、测试、上线、部署、发布所有的生命周期都会通过不仅仅是Metrics 还有系统日志、业务日志、链路追踪等进行整个全方位360度无死角的监测换句话说更多是从内往外来看诊断出系统内部产生问题的根因究竟出现了什么样的问题为什么会发生以及一些对应的恢复手段这些是我们整个可观测核心关注的点。

云原生时代对稳定性提出更高要求

随着容器、微服务逐渐流行起来我们进入到了云原生时代。传统企业要做云原生转型对整个监测以及稳定性方面提出了更高的要求

第一支撑业务快速迭代。举个例子阿里巴巴内部有将近8000到9000个应用每天会做将近4000次的应用发布这样频繁快速的迭代对系统的稳定性、可观测、运维等提出了极高的要求通过各种手段完成很好的支撑。

第二复杂的调用拓扑。随着整个微服务化兴起之后传统的大型单体应用微服务化之后带来非常好的弹性、便捷的服务但同时也导致整个应用的链路会变得非常复杂。今天如果按照传统的方式来做的话我们可能只需要依赖于一些专家的经验去看一些问题这其实也是一个瓶颈类型的问题。

第三极致的用户体验。今天企业拥抱云原生时代对数字化转型有强烈的诉求需要一个更极致的IT方面的体验比如说故障响应必须要更快一个问题从发现到恢复也希望更快处理的时间更要加快这是一个挑战。

最后高效的运维协同。通过传统的工单的方式有时候会效率低下如何解决组织协同的问题这也是我们关注的一个方向。

云原生可观测覆盖场景

云原生可观测重点包括以下几个场景

1、应用发布部署这些特定的场景下我们能够支撑非常场景化的监测和观测能力。

2、全景监测这个很好理解因为今天无论从应用的前端从用户侧到应用侧再到中间件再到底层的IaaS、基础设施层从端到端所有的链路都需要纳入到企业的监测体系来做一个全景监测这是应该是企业致力于做的事。

3、智能告警。今天我们把所有的观测都做好了远远不够今天我们需要引入一些更高级的玩法阿里内部这么多年需要把一些人工智能技术引入到我们的观测领域来能够帮助减轻整个运维的负担这也是后面我会详细分享的部分。

4、性能诊断。在发现问题或者说在性能压测的时候如何快速诊断到问题可以依赖一些工具发现问题的调用链以及一些专家经验级的实践这个是我们在性能诊断方面要加强的。所有的这些场景都包含了整个应用的生命周期。同时我们也要支持各种各样的云环境包括公有云、专有云、混合云的体系这是云原生的核心场景。

云原生可观测建设要点

接下来给大家分享一下我们通过最佳实践总结云原生可观测的几个要点。核心要点有三个 1. 我们的数据从哪里来。2. 我们如何建立这方面的可观测数据模型。3. 我们如何用好这些数据模型、如何分析。

数据从哪里来

今天整个可观测体系已经非常丰富了。我们要把所有的端到端包括上层的业务到应用程序再到分布式系统、中间件、底层基础设施所有这些都纳入到可观测体系中核心是阿里云的各种监测产品包括云监测 Prometheus、ARMS、SLS等所有这些产品的组合能够帮助用户把所有的可观测点都纳入到整个体系中来包括各种维度的Metrics、各种维度的指标各种维度的Trace 包括开源的兼容自建的链路追踪以及业务日志、系统日志、组件日志所有维度都可以纳入到可观测里来这是第一步主要解决可观测的数据从哪里来是否做得全面的问题。

如何建立可观测的数据模型

拿到数据之后怎么建模考虑到传统企业的运维可能更多需要统一的监测视图比如更需要做2D或者3D的展示我今天给大家做了一个展示。

3d.mp4

首先最底层就是IaaS 包括一些容器、虚机。另外一层就是上面的应用这里面也包括微服务应用和组件分布式数据库、分布式消息以及缓存等。再往上一层就是整个的应用服务每一步其实都是可以做下钻的看某一个问题节点会算到非常详细的地方。

另外在容器场景下因为今天的容器是作为整个基础设施的标准大家可以依托于整个监测体系快速搭建针对满足自己需求的平台。我们监测关键的核心数据组件包括应用状态、RT、CPU响应、消息等。另外就是缓存的状态也可以做一个展示包括RDS分布式数据库、管理型数据库、MQ、核心数据库等。我们也有非常多的数据库诊断手段包括ES检索数据库、MQ消息整个都是构成针对运维人员的统一监测大盘可以方便快速的自定义搭建。

最后白屏化的集成定位。我们监测到数据之后接下来就是问题定位。今天不仅是在阿里内部我们对外提供的一些产品其实已经能够实现快速白屏化的定位就是说今天你不需要再翻你的代码、再去登录机器看日志了所有的问题都可以通过全链路展示的方式定位到整个链路的根节点包括我们关心的一些内存、CPU、JVM参数、线程参数都可以通过白屏化的方式展现给大家这是我们对可观测系统做了非常高度的集成。

如何分析

介绍了数据模型怎么建、怎么收集之后还是远远不够的。今天我们是需要对可观测数据做一个深度挖掘主要分为两个方面

一是采用人工智能技术。我们发现单纯采用人工智能技术来做有时候是不起作用的也需要一些专家经验指导我们需要把整个专家经验沉淀下来。目前业界做故障诊断主流的方法是从算法的角度给出一些基线发现问题但是针对问题根因的诊断还是源于排查人员的技能。今天我们要找到的不仅仅是异常结果还需要把整个端到端到问题的根因分析以及相应的关键信息都展现出来。这里面依赖两点一是人的技能问题二是机器的算法问题。

首先是人的技能问题。我们的专家经验是能够在一定程度上帮助大家去解决问题的但是怎么把这个东西给沉淀下来这是一个问题。另外机器方面我们采用确定性的人工智能算法能够通过对指标检测解决问题。

今天我们的思路是把这两项相结合在人工智能这种算法应用的基础上再通过专家经验的沉淀来做指导因为我们在实战过程中发现如果仅仅依赖于人工智能的话其实人工智能在有些场景下就变成了人工智障所以必须依靠专家经验的沉淀来指导这个算法。

所以今天我们做了两者的结合。在专家经验方面将这些经验沉淀在产品中。阿里云可观测产品ARMS覆盖了50多个故障场景包括应用的变更、RT的突增、突发的大请求、单机的问题、MySQL等都会把相应的经验固定下来帮助大家快速自动诊断这部分问题场景这是我们通过大量的实践把专家经验通过白屏化的方式沉淀下来自动化的展示给大家。

这里面必不可少的是我们要做可观测的日常预测监测这也是集团内用的非常多的。阿里内部做异常检测主要是三个方面一个是服务器层面将服务器故障的特征训练出来。另外是集群层面的一些异常指标、特征给训练出来。最后是应用层面面向应用和日志的我们通过一些API出口的异常模型把它训练出来。

首先是监测数据包括多指标的监测数据收集上来之后通过做一方面的预处理把一些无关的指标去除或者说一些相关的指标去重。这里面我们也用到了创新的方法采用了标准化的模型方式把正常跟异常的差异纳入到某一个区间内进行分析。做完这些预处理之后就要建立特征工程今天我们也是把单指标异常的分数作为异常特征方式这块我们做得比较多核心是把整个异常特征以及时序特征的准确率提得更高。特征做完之后就是多指标方式阿里采用时序预测的方式多指标模型建立的更准确。同时模型建立完之后上线运行的过程中我们会不断反馈对整个训练出来的模型进行不断地修正形成一个闭环的正反馈。这就是可观测产品基于日常检测的基本的框架。近期我们慢慢把这部分开放出来给大家用大家可以关注一下。

云原生可观测建设的最佳实践

场景一容器场景下的全景可观测能力。今天容器已经成为IaaS层的标准整个容器场景下的可观测能力包括全链路端到端多样的数据接入能力包括APM厂商、Prometheus、主动拨测、流量监测、网络监测等全部纳入到容器场景下的可观测能力。另外就是全方位数据可视我们会把数据的可观测建模呈现得非常通俗易懂对于运维人员和客户以非常友好的方式展现出来而且每一层都可以2D、3D拓扑全景展示每一层都可以层层下钻帮助分析根因。还有一个特点是快速发现问题通过专家和白屏化的诊断手段所有的问题都可以层层下钻直到找到最底层的相关信息帮助大家解决问题。

场景二复杂链路的智能诊断。主要依托于两点。第一是专家经验我们沉淀下来将近50多个场景的专家经验做白屏化的根因分析。第二是确定化的人工智能技术进行一些问题的异常预测和检测等等包括整个阿里云可观测的体系把整个阿里云的核心云产品包括ECS、EDAS、AHAS、MSE 能够跟所有产品之间做一个深度对接之后再注入一些组建的自恢复能力这样能生成一个自动化的问题发现、自动化诊断、自动化恢复。

场景三想给大家分享一下我们对人工智能技术在异常检测场景下的最佳实践。主要是两个场景

一个是比较常见的运行时的异常检测。阿里巴巴内部有将近8000到1万个应用我们的监测频度比较高都是分钟以内这样的话几乎每时每刻都有上百万个指标要进行监测这个量非常大。如果依赖于运维人员做这个事显然是不现实的所以说我们采用异常检测算法平台主要思路是基于STL时序分解的基线预测再加上基于上下边界的预估。

基线方法我们内部有几个最佳实践第一个是我们采用的STL的时序数据的预测分解另外一个是基于ARIMA框架的拓展RAIMA-PRO 对周期性的序列做到更好的间并且能够自动的去更新我们的RAIMA框架参数包括DBQ参数就是差分、AR参数这些核心的人工智能参数我们是能够做到自闭环。

另外一个是基于Holt-winters时续预测的模型进行残差值的预测。另外上下文预估方案我们是采用IQR 历史同笔的先验方案的做的这是我们内部比较好的实践。这是刚才说的简单的运行时的检测算法框架核心是几个创新点一个是RAIMA-PRO 可以做到关键参数自动更新的框架的增强。另外一个是基于STL的分还有IQR残差值的检测并且基于IQR整个上下文边界的划分基本上是算法平台里面比较核心的几个技术点。这个东西采用了之后达到什么样的效果呢比如说基于RMSE均衡分布差的统计方式我们大概是能够从之前的0.74下降到0.59 误差下降了20个百分点。实战过程中的收获我们当时2019年6月份这个算法框架能够成功的预测某一次因为退款下跌发起的故障成功的预测。其实阿里内部是属于比较重大的故障这是比较好的实践效果。

另一个是应用发布时异常检测。很多故障都是新版本上线的时候所以我们针对应用发布也做了非常多的算法尤其在阿里前面也说了我们8000个应用每天可能有4000次的应用发布内部应用迭代非常快。如果是依靠传统的设置固定的阈值监测的话不够灵活拓展性比较差而且需要人工去不断地更新。效率是非常低下的。

今天我们在发布时实现的框架核心是实现了我们算法模型自适应的闭环。我们整个线上的模型以及我们的事例通过筛选误报以及微检测的异常更新一下我们的正负样本在我们的大数据平台更新我的训练集重新更新模型。同时是基于SBD 是能够针对偏移后的序列相关性进行很好的序列分析算法把整个训练闭环做得非常好。这是当时我们做发布时的异常检测算法框架的比较核心的创新点。这个效果还是比较明显的整个算法框架上线之后内部单个维度的监测效果有了3到5倍的提升这个提升比较大。另外从整体监测维度提升了大概将近5到10个百分点整个效果还是比较明显的。

本文主要介绍了运行时和上线发布时其实我们还有很多其他的比如说日常出现异常情况的监测其实也是业内比较典型的例子还有包括业务指标的异常检测后续再跟大家详细聊。我们已经把一些人工智能技术以及专家的经验沉淀到云原生产品上除了在我们内部使用之外正在慢慢地开放到外部的云产品上欢迎大家去使用。

本文转自网络，原文链接：https://developer.aliyun.com/article/784987
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：【产品动态】一文详细解读智能数据构建产品Dataphin的“规划”功 下一篇：没有了

随机推荐

CPS 新手推广指南

腾讯云推广奖励是指推广者分享自己的推广链接，推荐新客户注册并购买指定返佣产...
如何购买新虚拟主机

如何购买新虚拟主机？不同的网站，对虚拟主机的需求是不一样的。购买新虚拟主...
Spark学习笔记：核心概念可视化

对于在分布式系统上背景知识较少的人来说，学习Spark并非易事。即使我已经使用S...
Python数据模型与Python对象模型

本文转载自微信公众号「PythonMind」，作者dongfanger。转载本文请联系PythonMin...
使用RDP文件登录Windows云服务器_弹性云

操作场景远程桌面协议（Remote Desktop Protocol，RDP），是微软提供的多通道的...
按量付费实例停机不收费 - 云服务器 ECS

开启按量付费实例停机不收费功能后，如果在本文中提及的触发条件下停止实例，则...
Gartner：2021年10大云计算趋势

COVID-19的影响将持续到2021年,云服务访问性，可扩展性和灵活性的优势将进一步增...
基于 RocketMQ Prometheus Exporter 打造

作者 | 陈厚道? 冯庆来源 | 阿里巴巴云原生公众号导读：本文将对 RocketMQ-Exp...
南瓜电影：实现移动端与服务器双向互通

公司介绍南瓜电影App是国内领先的专注于影视精品化运营的垂直类视频产品，在移...
使用Termux将手机变成Linux服务器实践(一

背景最近觉得手机仅仅作为手机去使用 , 这么高的配置岂不是浪费 , 要是把电脑上...

云原生可观测最佳实践路径解读

推荐图文

TigerGraph在Microsoft Azure上提供多云图数据库即

2021中国云计算市场展望：行业变革的三大关键

谷歌、百度都想要？“地图”域名map.com或超50万美

微信小程序登录与Spring Security结合的思路

腾讯旗下游戏公司一口价10万元秒走域名LPL.cn

【玩转腾讯云】游戏多媒体引擎的体验与开发(一)

随机推荐

CPS 新手推广指南

如何购买新虚拟主机

Spark学习笔记：核心概念可视化

Python数据模型与Python对象模型

使用RDP文件登录Windows云服务器_弹性云

按量付费实例停机不收费 - 云服务器 ECS

Gartner：2021年10大云计算趋势

基于 RocketMQ Prometheus Exporter 打造

南瓜电影：实现移动端与服务器双向互通

使用Termux将手机变成Linux服务器实践(一

关于我们