当前位置：主页 > 查看内容

智能、互联时代的应用运维——《应用智能运维实践（试读版）》

发布时间：2021-07-06 00:00| 有位朋友查看

简介：点击免费下载《应用智能运维实践试读版》 https://developer.aliyun.com/topic/download?id 1193 在使用信息技术之前企业的生产经营依赖人工操作、文本记录和口头沟通。发生在20世纪六七十年代的第一次信息技术浪潮推动了企业经营价值链条中的关键活动的……

点击免费下载《应用智能运维实践试读版》https://developer.aliyun.com/topic/download?id 1193

在使用信息技术之前企业的生产经营依赖人工操作、文本记录和口头沟通。发生在20世纪六七十年代的第一次信息技术浪潮推动了企业经营价值链条中的关键活动的自动化。企业应用系统软件实现了从订单处理、财务管理和工程设计到生产资源计划管理的计算机辅助自动化。这是信息技术第一次在企业生产经营活动中发挥巨大的作用计算机将人工从海量数据采集、处理工作中解放出来推动了生产力的提升。

在这个阶段应用稳定性和性能保障等运维活动主要解决企业内部局域网内面向生产、财务、销售等部门提供服务的软件和硬件系统的故障问题。应用特点是系统架构相对简单、接入用户数量固定、数据增长速度相对稳定。应用软件大多是标准化产品有厂商提供运维支持企业运维压力较小。

20世纪八九十年代互联网的快速发展带动了第二次信息技术浪潮。通过廉价、便捷的接入方式互联网打通了用户、供应商和企业之间的信息通信交互通道。企业内部信息系统不再只联通、服务于企业内部。企业与供应商、合作伙伴、经销商、最终用户之间的信息交互成了可能。企业支撑经营管理活动的数字信息系统建设不再是购买标准化产品就能够完成了。应用系统开发、运维对企业尤其是互联网公司的重要性快速提升。应用运维不再只解决标准化产品故障问题而且要解决复杂多变的网络环境和系统间网状信息交互集成带来的新的问题这也带动了系统监控类软件的快速发展其中比较有代表性的是Florian Forster编写的Collectd UNIX系统的软、硬件监控指标采集存储工具 [1]、UC Berkeley开发的Ganglia 用于分布式部署环境下的高性能计算平台的监控 [2]等。网络性能监控分析软件和应用性能管理软件也在这个阶段诞生了。

以智能、互联为主要特征的第三次信息技术浪潮将在提升生产力的同时改变应用及其运维方式。物联网 Internet of Things IoT 已经开始改变产品或服务的设计、生产、营销、交付和售后支持过程。迈克尔·波特教授预言第三次信息技术浪潮将“有潜力成为目前为止影响最深远的相比前两次会激发更多的创新获取更大幅度的生产收益增长和经济增长”。

企业规划建设面向未来的应用智能运维系统之前首先要了解未来的应用系统和技术演进趋势。新需求、新技术激发的应用系统交互使用方式和开发运维方式的改变首先体现在企业交付用户的产品形态上。互联网在已经建立的、面向人与人信息通信的网络的基础上连接电器、汽车、家居、生产工具等产品形成物联网。企业生产的产品将逐渐演进成为智能、互联产品。随之改变的人与产品之间的交互方式以及随之生成的海量数据会推动企业运维方式演进。

如图3-1所示智能、互联产品演进路线通常可以划分为四个阶段在第一阶段通过嵌入计算平台实现智能化控制能力实现传统产品到智能产品 Smart Product 的升级在第二阶段通过植入联网能力对接云平台服务和其他终端控制设备产品演化为智能、互联产品 Smart Connected Product 进一步优化用户体验提升产品能力在第三阶段接入了更多第三方信息系统服务为产品的智能化决策提供了更多信息进一步扩展了产品的能力边界这个阶段的产品称为产品系统 Product System 在第四阶段产品系统进一步与其他产品系统能力对接成为更庞大的系统联邦 System of Systems 不同产品系统的能力相互融合、放大产品价值得以提升。例如农用机械生产商John Deere 和AGCO将拖拉机等农机联网信息化系统不仅与智能终端设备对接而且与灌溉、土壤检测施肥、天气预报、农作物价格管理、商品价格趋势预测等第三方产品系统和信息平台对接以优化耕作流程提高收益。在智能、互联产品升级之后农机设备只是整个庞大系统的一部分。多系统通过协作实现更大的价值。在这个场景下应用运维不再只围绕独立应用系统解决一个点的问题而是面向更大的场景需要复杂的联邦系统协作需要具备全景监控能力也需要具备智能化态势感知和风险管理能力的智能应用运维系统的支撑。

图3-1? 智能、互联产品演进路线

总的来说智能、互联产品包含的三个关键组成部分是物理模块 Physical Components 、智能模块 Smart Components 和连接模块 Connectivity Components 。物理模块指产品物理实体存在的部分如汽车引擎、轮胎空调压缩机、电源等。智能模块包括状态数据采集传感器、微处理器、数据存储器、控制系统和软件对应智能网联汽车就是引擎控制系统、下雨感知自动车窗控制系统、车载娱乐系统和汽车辅助驾驶系统。连接模块包括天线、接口、通信协议和信道等其中通信方式通常包含三种一对一通信即单个产品与用户、厂商和其他产品通信如汽车通过OBD OnBoard Diagnostics 接口与故障诊断系统连接一对多通信即集中控制系统实时或随需与多个产品连接如新能源汽车与云端监控系统实时通信以上报电池状态数据多对多通信即多个产品之间或产品与多个独立系统之间进行通信如车与车之间通信、车同时与路侧终端和云端服务通信等。

智能模块是对物理模块能力和价值的延伸。例如空调、热水器系统通过采集的历史数据来分析判断什么时候需要将室温加热到适合的温度、什么时候需要准备好热水。连接模块通过连接云端能力和终端能力将终端数据存储、计算任务负载卸载 Offload 到云端通过云端随需即取的计算、存储能力来放大智能模块的价值。这样终端就不需要集成昂贵、复杂的数据处理分析系统。通过物理模块、智能模块和连接模块的配合协同产品价值将循环放大这同时意味着系统复杂度的提升和运维方式的改变。智能、互联技术与行业应用场景结合衍生出了新一代数字信息系统见图3-2中的数字化医院应用、数字银行应用等也为应用运维的智能化建设带来了特殊的复杂性问题。

图3-2? 典型的智能、互联应用

从产品本身的功能和能力看智能、互联产品区别于传统产品的能力主要体现在四个层级状态监视、控制、优化和自治如图3-3所示。每个层级的能力都能在目标场景中体现闭环的价值并为下一层级能力奠定基础如状态监视是产品控制、优化和自治的基础。企业在策划升级产品时不仅要考虑提升产品的用户价值和自身竞争力同时要为每一层级技术升级带来的运维问题准备解决方案。

图3-3? 智能、互联产品的能力体系

1. 状态监视

监视智能、互联产品的运行状态采集用户行为和外部环境变化等实时数据是实现智能化管理、控制、优化、运营和运维的基础。不了解产品在用户目标场景中的使用情况和运行状态就无法实现进一步的智能化改造。状态监视层级能够实现的能力运行状态监控、运行环境监控、用户行为监控和异常状态检测。应用系统与终端交互的数据主要是状态变化监控数据和告警事件。可以体现的产品价值有故障告警、发现产品缺陷、挖掘用户场景中的新需求以改进产品设计等。例如对于新能源汽车目前国家要求其每10秒给云端车厂和国家平台上报一次监控数据一旦出现电池状态异常或车辆缺陷导致的驾驶安全风险云端平台可以及时发现和告警车厂通过对指定型号的汽车历史数据进行分析可以挖掘目标用户群的使用习惯和驾驶行为特点从而优化新款车的设计或者指导充电桩建设地点的规划。

2. 控制

有了状态监视数据下一阶段建设的能力目标是对智能、互联产品进行控制。通过实现控制能力产品不但可以更好地适应目标场景用户的使用习惯获得之前无法实现的可定制性而且能够进一步简化用户的操控提升用户体验。控制层级能够实现的能力产品功能控制、自定义产品用户体验。应用系统与终端交互的数据除了监控数据还包括控制指令和指令执行之后的结果反馈。例如汽车的电子车身稳定装置、加速防滑控制系统、防抱死制动系统、刹车辅助系统等可实现车机端控制简化用户的操控某些高端车提供的通过手机App控制锁车、开关车窗和空调等的控制能力提升了用户体验智能家居厂商在灯泡中加入远程控制能力使用户能够用手机控制设备开关甚至按需调节明暗和色彩。

对产品的控制可以通过嵌入终端的代码实现也可以通过部署在云端的集中控制服务实现。终端代码控制响应迅速实时性、运行可靠性高因为程序在终端计算机以独占方式运行不受外部网络连接和远端服务器性能的影响。但是其计算能力有限逻辑固定适应性差。云端控制需要产品终端设备与云端保持网络连接由云端转发控制指令。这种控制方式将终端控制程序运行卸载到云端降低了终端的硬件成本但网络时延导致其实时性差、运行可靠性低。采用哪种方式需要考虑具体的应用场景。例如对于汽车自动辅助驾驶和自动泊车用云端控制的话实时性不够风险较大而对于远程控制汽车空调因为调节温度并不需要太高的实时性没有占用终端计算能力实现的必要所以用云端转发手机指令到车端更合适。

3. 优化

状态监视和控制层级建设赋予了产品监视和控制的监控闭环能力为建设更复杂的优化层级能力打下了基础。有了全面和丰富的监控数据企业可以利用算法从数据中挖掘有用的信息指导产品性能、稳定性、能效等的优化。优化层级能够实现的能力产品功能优化、预防性维护、异常检测、故障修复、用户体验优化和使用习惯预测。对于实现了优化层级能力的智能、互联产品数据交互包含更易于理解的优化目标和产品状态信息。我们只需要设置优化目标调节相关参数系统就能够自动生成优化方案并向相关责任人反馈执行结果和状态信息。例如在数据中心场景下我们可以基于实时采集的基础设施温度、空气流动状态、负载、空调状态监控数据来设计数据中心能效优化系统自动生成优化方案以控制空调的开启和关闭、调节制冷功率和冷风流向、优化数据中心PUE Power Utilization Effectiveness 指标对于风力发电机在实现了对获取电量效率监控和风叶角度控制的基础上我们可以设计实现通过调整风叶角度来获取最大电能的优化系统。

4. 自治

自治层级的能力整合了状态监视、控制和优化层级的能力通过智能化进一步解放人脑从而形成无须人工干预即可应对某些场景特定任务的自治控制系统。自治系统无须人工运维干预。自治层级能够实现的能力产品自治控制集群智能协作自动化配置变更故障自诊断、自恢复使用环境自适应和用户使用习惯学习。应用系统与终端的交互数据包含控制程序和执行反馈如用于修改缺陷或升级自动控制策略的自动控制程序升级包、辅助诊断故障的执行日志等。在指定事件发生时自治系统能够自动匹配解决方案以应对。例如在云端部署面向全球提供服务的电商系统其每天的访问热点地区会随时区变化而变化当中国地区在白天访问量较大时处于凌晨的美国地区的访问量就比较低当美国地区白天的访问量增加时中国地区的访问量则开始下降这样就实现了自治控制的云应用利用遍布全球的云数据中心自动控制热点跟随当不同地区的访问量增加或降低时启动或关闭对应地区本地数据中心的负载处理节点以提升用户体验。还有一个具备自治层级能力的智能、互联产品是扫地机器人。利用集成在终端的传感器和计算平台扫地机器人能够自治地控制地面清洁操作从而应对障碍物和地形变化。

具有自治能力的智能、互联系统能够应对部分已知故障或突发异常情况并选择对应的处理策略从而进一步降低人工参与运维工作的工作量。人工参与监控运维不再需要关注局部组件的具体指标而只需要掌控全局运行状态和运行效果就行只有在发生问题时才需要逐级排查问题根源并调整处理策略。

产品智能、互联化的趋势不但影响着互联网公司和高科技公司的发展战略而且影响着传统行业如制造业、医疗、金融等。近几年宝马、北汽、吉利等车厂信息化建设的速度加快有些甚至组建了独立的公司和部门做数字化转型自动驾驶、车与云端实时交互信息、从车端语音控制智能家电这些已经不是概念了。A.O. Smith公司在热水器产品中植入了传感器连接云端服务采集用户的使用习惯数据结合当地的水质、天气变化实现了对水温的智能调节优化了用户关怀服务。迅达电梯PORT科技 Schindler Elevator PORT Technology 公司通过预测电梯的需求模式计算到达目的地的最快时间及分配合适的电梯以使乘客快速移动将等待电梯的时间减少了一半以上。在能源领域 ABB的智能电网技术使其公用事业公司能够分析广泛的发电、变换和配电设备由ABB及其他公司制造的大量实时数据如变压器温度的变化从而提醒公用事业控制中心可能出现的过载情况使其进行调整以防止停电。

在智能、互联产品使用场景下驱动业务的应用系统不再是单纯连接用户和服务的C/S Client/Server 用户端/服务器架构或B/S Brower/Server 浏览器/服务器架构。数字信息系统应用与用户交互的终端从单纯的计算机、手机扩展到手表、电视、音响、汽车、门锁、空调、洗衣机等各种与我们日常生产、生活相关的物体。应用服务端也经历了从单体架构、垂直架构、SOA架构、Lambda架构、Kappa架构、云原生架构到微服务架构的演进过程。应用运维的复杂度激增性能和稳定性保障若只是单纯地采集服务节点状态、代码执行链路或网络运行状态配置告警策略已经不能满足实际生产场景的需要了。

3.2 ?技术演进趋势

从技术演进趋势看虚拟化、云计算、容器、微服务等新技术正在逐渐将应用的业务逻辑与基础设施解耦。虚拟化技术将计算、存储、网络资源从物理硬件设备中剥离出来。云计算技术则将虚拟化资源形成资源池并以自助的方式向租户交付随需即取的资源。容器技术将应用中间件从操作系统中解放出来。近些年逐渐兴起的微服务技术进一步将应用业务逻辑从中间件中剥离出来。应用本身运行对底层硬件环境的依赖逐渐减弱映射关系的不确定性和动态性更加明显。这就导致应用运维与传统IT基础设施运维的目标大相径庭。由于更贴近用户和业务应用运维的重要性和复杂度更高。

目前金融、航空、汽车等行业都处在数字化转型的前沿由于应用性能问题导致用户体验下降、企业用户流失和经济损失的案例在逐渐增加而传统以应用性能管理工具和网络性能管理工具建设为主的应用运维系统的被动响应式风险处理机制已难以应对。实现主动预防的风险处理机制、建设智能化的应用性能管理平台已逐渐成为企业构建面向未来的运维体系的关键。

这些场景之所以能在今天成为现实主要原因是一系列新技术的发展和成熟使得制约应用落地的障碍得以清除。其中对数字信息系统应用的架构及开发、运维方式产生深远影响的技术如下。

1. 服务器虚拟化、云计算

近年来首先掀起波澜的是服务器虚拟化、云计算技术的普及应用。创立于1998年的VMware公司推出的VMware Workstation服务器虚拟化软件将操作系统与硬件基础设施解耦使得软件系统不再与硬件平台绑定。2006年亚马逊以虚拟化技术为基础推出了首个云计算服务——AWS Elastic Compute Cloud EC2 将数据中心剩余的计算、存储、网络资源以在线服务的方式出售。应用系统部署安装不再依赖特定的硬件和数据中心软件定义基础设施成为可能。

2. 大数据

数据量的快速增长使得大数据存储分析技术成为研究热点。2006年基于Google File System论文[3]研发的Hadoop大数据存储分析平台成为行业焦点。有别于传统的结构化关系数据库 Hadoop半结构海量的大数据存储能力和基于MapReduce算法的信息提取能力为应对智能、互联场景下激增的数据量提供了解决方案。

3. 容器

出现于2008年的Linux操作系统层虚拟化LXC Linux Containers 技术在服务器虚拟化基础之上通过将操作系统资源隔离进一步将应用中间件与操作系统解耦使得应用动态部署、更新、迁移和弹性伸缩控制更加灵活。LXC对应的商业产品Docker的快速普及和应用已经证明了容器技术的商业价值。

4. 微服务

微服务 Microservices 技术进一步将业务逻辑和应用中间件解耦。2011年5月在威尼斯附近举行的软件架构师研讨会上 “微服务”一词被与会者用来特指业界正在普遍探索和实践的一种通用软件架构设计风格。2012年 James Lewis在克拉科夫的一次题为Micro Services Java, the Unix Way的演讲中介绍了这些新想法。他描述了通过“分而治之”的方式使用康威定律 Conway’s law 来构建软件开发团队的一种更敏捷的软件开发方式并把这种方式称为“微服务”。利用微服务架构和技术应用业务模块被拆分成独立的微服务节点以方便复杂系统的多团队协作开发、更新和测试由于业务模块对应微服务节点的独立部署其扩展性更高每个微服务节点可以由不同语言、不同架构实现支持对接遗留系统服务业务需求变化导致的对应应用系统的架构重构不影响其他微服务节点。

如图3-4所示为某电子商务应用系统在传统单体架构中所有应用的业务代码部署在一个独立的服务节点上运行在一台应用服务器上代码耦合度高。一个独立服务对应的开发团队需要在同一个开发框架中使用一样的技术堆栈和开发语言。所有业务访问数据库需要通过统一的数据访问层接入数据库。一旦需要升级功能、修改缺陷所有代码需要重新编译发布。而微服务架构将电子商务系统中的服务配送、查询详单、接收订单、结账收款等业务功能解耦使其成为可以独立开发部署的节点。各服务通过服务发现、注册方式进行管理并通过接口交互。每个节点可以采用不同的架构、开发语言可以有自己的数据库。这样业务逻辑多样且多变、架构复杂的互联网和物联网应用系统可以通过多团队协作开发来划清任务目标和功能边界不再局限于一个统一的技术堆栈。虽然微服务架构优点很明显但并不完美。在解决多团队协作问题的同时微服务架构也加剧了系统的复杂程度使系统的运行维护成本激增数据量增加。

图3-4? 单体架构应用与微服务架构应用的结构对比

5. 人工智能

在计算机科学中人工智能也称为机器智能是机器通过算法实现的智能。人工智能研究领域诞生于1956年达特茅斯学院的一个研讨会上约翰·麦卡锡 John McCarthy 提出了“人工智能”一词[4] 以区分该领域与控制论并摆脱了控制论专家诺伯特·维纳 Norbert Wiener 的影响。人工智能技术被认为是推动第三次信息技术浪潮的关键技术。近几年来人工智能发展迅速产业界和学术界对相关技术的研究、落地兴趣很浓。随着硬件平台计算能力的提升和算法的突破人工智能的应用场景越来越多。例如人脸识别应用于身份认证图像识别应用于海量图片处理和搜索异常检测和因果推理分析算法应用于海量机器数据的处理等。

3.3? 应用智能运维系统企业数字战略的关键支撑

根据Forrest的统计数据 57%的企业用户IT运维部反馈至少每周会发生一次影响应用性能和可用性的问题每天都发生问题的比例占到了28%。对于愈加依赖应用来面向用户以实现企业价值、提高工作效率的当今企业来说这种问题越来越无法忍受。统计数据显示超过一半的企业认为应用性能问题直接导致业务用户和IT部门效率降低 42%的企业认为应用性能问题直接影响了企业收入。当前企业应用运维团队的压力主要来自以下两个方面。

1 新需求推动应用数量激增。移动智能终端设备的普及使应用逐渐渗入我们工作、生活的方方面面企业应用数量激增。企业面向用户、合作伙伴和内部员工建设的应用数量会随产品智能、互联化的深入持续增长。

2 产品数字化导致应用结构愈加复杂保障应用性能更困难。在技术方面如混合云、数据分析、物联网、车联网、体域网等新技术的持续演进使得应用结构愈加复杂保障应用性能更加困难。据统计超过一半 52% 企业的IT运维部门在监控管理工具上的投入是被动、针对特定问题且分散的。这种投入方式虽然可以有效地解决当前的问题但由于管理功能单一、分散、碎片化难以应对未来以应用为核心的新需求和技术演进。随着时间的推移现有应用运维问题会恶化。因此采用被动处理方式的应用智能运维系统已不能满足企业快速数字化转型的需要主动分析定位潜在问题、预防应用性能风险已成为未来应用智能运维系统的发展趋势。

自动化过程是将人手从简单重复的劳动中解脱出来的过程而智能化过程则通过将经验和思维逻辑固化为算法将人脑解放出来。对于智能、互联时代的应用运维场景人工处理的速度已经远远跟不上运维工作量增加的速度用机器智能解决机器复杂性问题是目前可行的解决方案。

随着信息系统的快速演进企业对应用运维系统的期望也在上升。Gartner于2018年12月发布的分析报告指出企业对应用运维能力的需求核心正在从应用请求链路监控、用户数字体验保障向智能运维、业务流程监控、应用全景监控转移如图3-5所示。

图3-5? 应用运维系统的演进路线

传统以APM平台提供的以应用代码监控分析能力为核心的应用性能监控运维体系正向以用户数字体验保障为核心的方向演进。大数据、人工智能技术的发展使得监控系统有能力从海量数据中提取有用的信息实现更符合应用运维需要的业务流程监控和全景监控。

3.4? 商业价值评估 ROI分析

建设能够满足智能、互联时代应用运维需求的智能运维系统意味着要对原有运维体系的监控数据采集、数据存储、数据分析的工具以及运维流程和人机交互界面进行全面升级。我们在决策是否值得投入建设时需要先判断ROI Return On Investment 是否能达到预期。

比较可行的计算办法是在系统目标场景下挖掘相比于现有方式能够改善、升级的价值点选择可量化的指标计算ROI。例如常用的系统可靠性量化指标有故障平均修复时间 Mean Time To Repair MTTR 、平均无故障工作时间 Mean Time Between Failure MTBF 、平均失效前时间 Mean Time To Failure MTTF [5]和标准化的用户体验指标 Application Performance Index APDEX [6]。MTBF即平均失效间隔就是从新的系统在规定的工作环境下开始工作到出现第一个故障的时间的平均值。MTBF越长表示系统的可靠性越高正确工作能力越强。MTTR就是从出现故障到恢复之间的这段时间。MTTR越短表示系统的易恢复性越好。MTTF就是系统平均能够正常运行的时间。系统的可靠性越高 MTTF越长。APDEX是从用户的角度评估系统使用体验的标准化指标。它提供了测量和报告用户体验的标准化方法将用户体验量化成范围为0 1的满意度评价数值把最终用户体验和应用性能联系在一起。

以某快销企业为例其现有面向终端用户的营销平台、冷链管理等生产管理系统、用户关系管理系统和ERP等百余个系统。其应用运维团队有40人负责日常的应用性能、可用性保障。根据历史数据统计每年导致应用服务中断的严重故障次数平均为22次。运维人员平均工作负荷为120% 主要是由收到异常告警、需要处理突发事件、加班排查故障导致的。每次出现严重故障的平均故障恢复时间为20小时左右。应用持续稳定运行的时间为219小时。

该企业规划升级现有运维体系实现应用系统的集中监管打造具备监控指标集中存储、风险主动探查和根源定位分析能力的应用智能运维系统。通过技术可行性评估结合历史运维场景对现有运维流程进行优化估计量化的ROI数据如表3-1所示。其中在每年22次历史故障中通过引入可用性主动拨测机制和全景监控能力可以提前发现规避的故障有10次按每次故障损失12万元计算每年收益达120万元。采用自动化拨测应用关键业务流程的可用性以及故障信息自动关联辅助根源问题分析使得人工巡检和分析监控数据的工作量减少了约1/4 应用团队规模可以缩减10人。按人均年成本20万元计算年收益达200万元。

应用智能运维系统规划建设的主动探伤扫描功能可以每天自动分析应用的潜在风险降低突发故障导致系统宕机的概率。运维人员加班处理突发问题的时间减少工作负荷相应地可以降低到90% 节约成本约80万元。由于意外故障导致的宕机次数减少 MTTF可以从平均219小时提升到438小时对应规避的运营损失包括最终用户流失、代理经销商业务终止、故障恢复人力成本投入等总计76万元。相比于现有系统应用智能运维系统通过整合数据深度分析和定位影响用户使用的性能瓶颈。应用性能的提升意味着用户体验的优化 APDEX可以从目前的0.75提升到0.92。对于运营部门来说相关用户转化率有明显的提高据运营部门估算这对企业经营带来的可度量收益大概在90万元左右。经过整体评估企业建设应用智能运维系统每年带来的可量化ROI为736万元。

表3-1? 应用智能运维系统建设ROI评估

指标

运维现状

期望效果

收益/ 万元/年

每年应用严重故障次数

每年22次严重故障

每年12次严重故障

120

应用运维团队人员数量

40人

30人

200

应用运维人员平均工作负荷

120%

90%

MTTR

20小时

6小时

170

MTTF

219小时

438小时

APDEX

0.75

0.92

年收益总计

736

有了数据支撑我们就可以进一步明确建设目标和愿景并对规划建设的特性优先级和建设成本有相对准确的估计。ROI估算只是第一步接下来需要梳理目标场景深入理解系统在实际场景中可以发挥的价值。对场景和实际需求的理解很大程度上决定了系统能否够达到期望效果。总的来说应用智能运维系统的场景化价值主要有以下几点。

1. 实时感知风险态势减少应用宕机损失

监控的目的是发现风险在智能、互联时代发现风险需要强大的监控系统的支持著名的监控系统——宙斯盾和彭博终端的核心价值都是在复杂态势中找到风险点。应用运维也类似在系统复杂度快速增加、接入用户终端设备多样化、系统间交互集成关系更紧密的背景下应用智能运维系统的全景监控和智能化态势感知能力对企业更加必要价值也更大。实现风险态势感知的前提是有全面、实时、丰富的监控数据。

信息化建设发展到今天大、中型规模的企业几乎都会建设IT系统的监控系统来监控应用和应用运行环境状态。常用的监控系统基本上都是针对一个点进行数据采集和风险告警的。例如网络性能监控工具nTop[7]能够对网络中的网络包进行拆包分析监控当前网络上信息交互应用的流量异常开源网络及应用监控工具ZABBIX[8]常用来对IT基础设施和中间件进行监控应用性能管理工具Pinpoint[9]擅长监控应用请求执行代码链路和追踪分布式事务执行过程异常 Logstash[10]、ElasticSearch[11]是用来对应用日志进行存储分析的常用工具。这些系统的数据采集、存储和风险告警相对独立。一个完整的智能、互联应用系统的部署架构和数据交互复杂往往需要多种工具联合使用。对于运维人员来说这些就像一个个数据孤岛一旦发生异常多套系统都有可能产生告警形成告警风暴。要排查和定位问题根源需要人工登录多个门户查询历史数据因此系统易用性差运维工作效率低。

应用智能运维系统首先能解决运维孤岛问题。如图3-6所示通过搭建由不同类型的存储平台组成的运维大数据湖将ZABBIX、nTop等的监控数据同步采集到一个集中的存储平台来做数据同构转换、清洗、聚合、统计等分析处理为状态监控、异常检测、根源问题定位等应用场景提供一致的数据存储。一旦发生异常告警风险点对应用整体运行态势产生影响受影响的终端用户和业务流程能很快被定位出来。这样人工介入处理数据、发现和定位风险的工作量减少 MTTR会有一定幅度的减少。

图3-6? 运维大数据湖打通运维数据孤岛

2. 提供专家经验指导提高应用运维效率

智能化的关键支撑是经验和知识的积累应用智能运维系统建设区别于其他监控运维系统的关键一点是在发生异常或出现潜在问题的情况下其能够通过算法和积累的专家经验来指导风险的发现、定位和处理辅助决策支持。传统监控运维系统积累专家经验主要依靠告警策略、监控运维仪表盘和报表。告警策略针对时间序列指标数据配置自动探测异常的逻辑出现问题自动生成告警监控运维仪表盘和报表通过预定义模板的方式对指定类型的资源、监控场景或故障最常用的指标进行统计分析并生成对应的可视化界面。开源监控数据可视化平台Grafana[12]专注运维数据可视化提供了大量根据经验定义的可视化仪表盘模板。利用类SQL查询语句 Grafana将常用指标聚合、统计和展现策略固化为可下载的模板并通过开源社区的方式让全球用户接入下载或分享自己的仪表盘。

除此之外知识图谱与运维场景的结合也是解决运维专家经验积累和使用的可行途径。知识图谱 Knowledge Graph [13]是实现人工智能落地的重要基础它以结构化的形式描述客观世界中的概念、实体及其关系将互联网的信息表达成更接近人类认知世界的形式提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱不是一种新的知识表示方法而是知识表示在工业界的大规模知识应用它将互联网上可以识别的客观对象进行关联从而形成客观世界实体和实体关系的知识库其本质上是一种语义网络。如图3-7所示其中的节点代表实体 Entity 或概念 Concept 边代表实体/概念之间的各种语义关系如用户 User 拥有某站点 Site 的管理员权限在用户和站点两个实体之间会有一条线标识拥有管理权限 has administrator 。

有了积累的专家知识和经验我们就能够在发生异常且缺少专家指导的情况下利用应用智能运维系统自动检索和匹配知识库信息解决疑难问题为企业降低人工成本。

3. 主动找出故障原因提前预防和规避风险

有了积累的专家知识和经验应用智能运维系统能够帮助我们利用这些知识和经验管理风险。具体场景 ①在未发生风险时通过设定先验条件来推理和判断系统是否可能出现性能瓶颈或故障若可能分析问题所在 ②在已经发生了风险告警时回溯数据到故障点结合知识和经验推理及分析原因。

第一种场景重点是预防和规避风险在故障出现之前就能解决问题对企业的价值更大。例如电商平台在既定时间进行线上营销活动从历史数据可以预估确定时间点在线用户数量的大概范围。在线用户数估计值就是先验知识利用从历史数据中学习得到的知识和经验模型推理分析就可以预判在此负载条件下哪些指标会出现异常。从指标可以梳理出可能发生的性能瓶颈、潜在故障等从而指导扩容或配置变更以便减少应用宕机风险。图3-8为面向汽车故障诊断的概率图模型 Probabilistic Graphical Models 因果推理网络示意。其将每种影响稳定运行的状态指标的取值离散化然后通过输入先验知识来推理其他指标的后验概率分布从而判断最可能出故障的点。

图3-7? 知识图谱语义网络模型示意局部

图3-8? 概率图模型因果推理网络示意

第二种场景是在故障发生时利用提前学习生成的指定故障因果关系概率图模型从高维海量监控数据中查找相关信息辅助定位根源问题从而缩短MTTR。例如利用知识库推理分析算法排查应用运行环境指标间的因果影响关系定位出HTTP错误事件和Java内存使用率指标异常之间的相关性较强从而可得出Java内存溢出导致应用宕机进而导致用户HTTP请求错误。

4. 辅助容量规划决策节约资源采购成本

大多数企业在新应用上线或扩容规划时对需要准备多少计算、存储、网络资源资源在应用系统中每个独立部署的节点之间如何分配都缺少经验和有效的历史数据支撑。建设应用智能运维系统后企业就可以通过算法分析全量采集的应用历史数据从而进行决策。

区别于直接采集、分析应用性能管理监控数据和应用运行依赖的基础设施环境监控数据做容量规划分析应用智能运维系统需要首先将业务流程请求处理链路、应用节点运行状态指标和对应的运行环境状态指标关联从历史数据中筛选指标波动相关性。有了这些信息我们能分析出各业务流程的历史峰值以及在峰值发生时其对哪些服务节点和对应的运行环境状态指标有相关性影响。例如计算密集型业务的并发量增加对应节点的CPU利用率会显著升高因此我们需要判断对应节点的CPU利用率增加是否会使业务执行时间超时以及使请求的数量超过服务质量目标的约束。如果通过算法计算发现有指标波动相关性那么就意味着需要扩充服务节点的计算能力。

图3-9是应用容量规划决策支持样例。我们利用算法预测未来负载的变化趋势通过历史数据推理分析什么时间段会导致哪种资源利用率增高。计算维度包含了CPU使用率、Java内存使用率、交换空间使用率等常用相关资源的使用率。一旦发现未来某时刻可能负载会增加则对应的某些资源使用率会不会超标以及需要额外增加多少资源就都一目了然。

图3-9? 应用容量规划决策支持样例

5. 掌控全局业务状态赋能业务数字化运营

应用智能运维系统通过整合多种运维产品监控数据利用人工智能算法代替人工来挖掘数据中的信息。这种能力使得企业能够在未来智能、互联时代建设业务逻辑更加复杂的数字信息系统支撑产品和服务能力升级。全景监控能力对企业的价值主要体现在用户数字体验保障和复杂应用系统的整体健康状态保障两方面。

如图3-10所示对于运营场景为了保障用户数字体验运营人员关注用户侧使用情况和对应的应用侧业务流程的健康状态对应用本身的服务节点状态和运行环境基础设施运行情况不太关注。因此全景监控视图需要实时监控关键业务流程的运行状态一旦出现问题能够反映其对用户关注的业务的影响。

图3-10? 智能、互联应用全景监控视图样例

在运维对复杂应用系统的整体健康状态保障的场景下监控重点也要从具体技术组件和运行环境向业务流程转移。微服务化、容器化使得应用本身的部署架构和数据交互关系更加复杂。逐个排查具体节点的运行状态工作量会非常大。因此运维思路需要从局部到整体以业务流程为根节点逐级关联子业务流程和相关服务节点如图3-11所示。一旦出现故障运维可以快速评估影响范围定位根源问题。

图3-11 业务流程与系统技术架构的关联关系

?案例 LinkedIn 应用智能运维建设方案

成立于2003年的LinkedIn自始至终以“为更好的工作机会连接用户人脉网络 to your network for better job opportunities ”为经营宗旨。公司信息系统复杂度随业务增长快速增加。截至2015年年底 LinkedIn拥有超过3.5亿用户系统每秒处理的请求数量过万触发后端系统查询量达百万级别。

公司工程部主管Prachi Gupta 在2011年一份内部报告中强调了监控系统的重要性 “在LinkedIn 我们一直在强调我们系统网站应用可用性保障的重要性要保障我们的会员在任何时候都能够使用我们网站上的所有功能。为达到这个目标我们要能够在问题发生时就探测到故障或性能瓶颈并及时做出响应。因此我们使用具备时间序列数据展现能力的监控系统来实现分钟级的故障检测和响应。这些监控工具和技术已经被证明是必需的。它们为系统运维工程师检测、探伤、解决问题争取了宝贵的时间。”

2010年 LinkedIn建设了大量监控系统来覆盖应用运行期的方方面面采集了大量监控指标数据如图3-12所示。但是开发工程师、运维工程师如何获取这些数据成了难题更谈不上分析数据、获取信息了。因此 LinkedIn启动了Eric Wong提出的夏季内部项目这也促成了InGraphs系统的研发和投产。

Wong写道 “仅仅是获取某些特殊服务的宿主机CPU使用率这种基本指标都要填写工单由某些人花费大约半小时时间来整理一份报告”。当时 LinkedIn正在用Zenoss 一款以应用基础设施为核心的监控软件采集指标数据。Wong解释说 “从Zenoss中获取数据需要逐级浏览响应缓慢的Web页面所以我写了一些Python脚本来加速这个过程虽然还得花时间手动配置所要采集的指标但从Zenoss中抓取数据的过程已经大大简化了”。

图3-12? LinkedIn采集的监控时间序列指标

在持续了一个夏天的研发之后 Wong又陆续研发完善了InGraphs的功能使得开发工程师、运维工程师可以从中获得需要的监控指标数据并实现了跨多个时间序列指标数据集计算每周变化趋势统计历史数据环比、同比计算和监控指标自定义仪表盘自助选择等实用的功能如图3-13、图3-14所示。

图3-13 ?InGraphs系统监控效果

图3-14 ?InGraphs多指标历史数据对比

关于研发、完善InGraphs功能和它本身的价值 Gupta表示 “在一个关键的Web-mail服务开始有趋势显现故障时 InGraphs系统及时发现了并在该应用维护团队意识到问题之前通知了相关责任人这使得InGraphs监控系统的价值被公司认可”。

从一个初级项目孵化出来的InGraphs系统目前已经成了LinkedIn运维体系中的关键组成以至于InGraphs的时间序列数据监控图表遍布公司工程部门成了最引人注目的部分。

3.5 ?系统关键能力

如果企业无法抵消信息系统趋于复杂化带来的运维风险数字化营销、数字化生产、数字化管理等战略就是空谈。建设具备全景监控、智能运维能力的应用性能管理系统保障用户数字体验提升应用可用性已成为企业必然的选择。

随着信息系统的快速演进政府、企业对数字信息系统应用的依赖持续上升对相应的应用性能、稳定性保障系统建设的关注同步升温。而传统以应用指标采集为主的APM系统已经难以满足云化、容器化、微服务化的复杂应用系统的监控运维需求。某知名IT咨询公司发布的最新分析报告指出企业对APM 能力的需求核心正在从应用请求链路监控、用户数字体验保障向智能运维、业务流程监控、应用全景监控转移。在此市场背景下要保障政府、企业未来日趋复杂、多样、高负荷的数字信息系统建设需要新一代以应用为核心的智能化全景运维平台的支撑。要打造用户体验优先的应用智能运维系统其需要具备的核心能力如下。

1. 全景视图监控实时掌控用户数字体验

应用智能运维系统能够自动探测和发现应用从用户端到服务端的端到端全栈拓扑结构、用户操作业务流程和代码执行链路实时感知潜在风险并通知相关责任人以全景化的应用监控视图展现用户请求触发的应用行为监控范围涵盖从用户端到服务端的各环节。一旦出现风险运维人员可以及时从全景监控视图观察到风险点并能够下钻到原子指标或代码链路、日志等白盒监控数据将其发送给开发人员解决处理如图3-15所示。

2. 运维大数据可视化自助定义监控视图

应用智能运维系统能够支持自助、实时提取监控数据定义可视化监控仪表盘视图设置仪表盘间的跳转关系。监控视图可让海量运维数据更易理解风险监控更及时、更直观。图3-16所示为可视化运维监控大数据仪表盘样例只有通过全可视化界面实现信息的高效人机交互才能满足未来应用运维的需要。

图3-15 从用户端到服务端的应用监控全景

图3-16 可视化运维监控大数据仪表盘样例

3. 应用全栈集中监管全方位掌控应用的运行状态

应用智能运维系统能够提供对应用360度全方位、全栈的监管能力不但能够对应用进行请求、事务、线程及代码级的深入分析而且支持对应用依赖的应用服务器、数据库、虚拟化环境、云环境及主机、网络、存储等基础设施进行监管帮助用户了解并掌控应用的性能、健康状态、风险及用户体验。

4. 聚合监控指标数据简化日常应用性能管理工作

为简化对海量监控指标的监管工作应用智能运维系统以聚合指标指示关键应用性能指标。通过指标聚合应用智能运维系统将海量应用性能指标转换为容易理解、管理的应用健康状态、用户体验指标等指标并通过仪表盘实时更新。这些指标反映了应用运行的全局状态避免了人工筛查指标数据定义了大量、复杂的告警策略从而提高了管理效率。

5. 管理用户体验追踪用户实时、历史在线状态

保障良好的用户体验是应用性能管理的最终目标。应用智能运维系统支持实时监控APDEX 帮助用户掌控应用的用户体验变化情况。为实现更高效的敏捷管理应用智能运维系统以用户体验保障为核心提供能够追踪用户实时和历史在线状态、请求响应时间、请求异常状态等关键指标的驾驶舱式集中监管仪表盘。

6. 辅助性能优化智能分析运行缓慢的业务流程

应用系统支撑企业运营的各环节每个业务流程都对应众多的服务及功能调用一旦某业务运行缓慢会直接导致企业运转效率下降甚至停滞。因此在出现问题时定位瓶颈所在并解决问题的及时性直接关系企业的营收指标。应用智能运维系统能够通过分析海量运维数据查找指定时间段内运行缓慢的业务请求及对应的应用执行线程快速定位应用性能瓶颈所在从而提高解决业务响应缓慢问题的工作效率。

7. 应用白盒监控深度分析应用性能风险的根源问题

在应用系统性能异常时应用智能运维系统能够通过自上而下、逐层钻取应用堆栈的方式分析根源问题生成指定时间段内的详细性能分析结果视图见图3-17 。分析结果视图涵盖应用行为、性能指标、异常日志、内存用量分析等几乎所有应用运行期的关键运维数据这些数据可以帮助用户快速排查、分析应用性能异常的原因。

8. 变被动处理为主动防御提前规避应用性能风险

要从根本上扭转当前企业面临的应用性能管理被动甚至有时近乎失控的局面首先需要变被动解决风险告警为主动解决潜在问题及风险。有别于其他APM产品应用智能运维系统致力于打造主动防御型应用性能管理体系使企业能够提前发现风险防患未然。基于概率图模型构建的指标间因果影响关系及推理分析模型可使应用智能运维系统分析和处理海量数据并通过自主研发的运维数据深度学习技术从应用性能历史数据中分析最小粒度的指标计算运维数据间的复杂概率分布然后基于数据自动生成关联关系、影响程度等信息从而生成可进行预测分析的数学模型。利用此模型应用智能运维系统能够在给定时间范围或预期负载条件下发现潜在问题及风险提升用户体验减少由应用稳定性、性能问题带来的经济损失。

9. 预测应用性能变化趋势优化应用资源配置

通过分析运维数据生成对应用性能、负载及容量未来变化趋势进行预测的预测分析模型应用智能运维系统能够帮助企业提前发现应用资源配置存在的问题定位如CPU、物理内存、Java内存、物理磁盘、网络等资源存在的资源超配或资源配置不足问题如图3-18所示。除此以外应用智能运维系统能够借助预测分析模型计算提升或降低某种资源配置对关键应用性能指标如请求响应时间、APDEX等的影响程度从而帮助运维人员找到最优的资源配置方案在保障应用性能的同时提高资源使用率节约成本。

图3-17 应用性能分析结果视图

企业在规划、构建面向智能、互联时代的应用智能运维系统的过程中需要摒弃传统以网络、资源、设备为核心的被动运维理念实现以应用为核心的主动式、智能运维管理平台实现对应用性能的全方位监控和预测分析。在此过程中应用智能运维系统能够帮助应用运维人员应对未来的复杂应用系统运维挑战构建更加简单、高效的智能运维平台以适应未来数字化驱动的新型互联网企业发展的需要。

图3-18 应用资源使用量容量规划截图

本章小结

应用是驱动企业对接“互联网 ”、“工业互联网”和“工业4.0”等国家战略的引擎是否能有效解决应用性能管理问题关系成败。智能、互联场景下的应用智能运维系统以简单、智能、全可视化的理念重构了企业应用运维流程相信其在提升企业用户数字体验、大幅度降低运维成本的同时能为企业带来前所未有的数字化运维新体验。

本文转自网络，原文链接：https://developer.aliyun.com/article/785108
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：阿里巴巴DevOps实践指南（二十二）| 发布策略 下一篇：应用运维——《应用智能运维实践（试读版）》

随机推荐

7种会导致业务失败的数据分析方法

真正的数据价值取决于对业务的洞察力。数据分析是企业拥有的最强大的资源之一。...
云服务器绑定密钥对 - API 文档

1. 接口描述接口请求域名： cvm.tencentcloudapi.com 。本接口 (AssociateInst...
《Spring 手撸专栏》| 开篇介绍，我要带

作者：小傅哥博客： https://bugstack.cn 沉淀、分享、成长，让自己和他人都能...
SLS开放告警简介

背景介绍监控告警系统作为最为常用的服务能够让开发运维人员时刻了解服务的当...
步骤二：网络配置_弹性云服务器 ECS_快速

网络配置设置“网络”：在下拉列表中选择可用的虚拟私有云、子网，并设置私有IP...
腾讯云虚拟主机叫什么

腾讯云虚拟主机叫什么？腾讯云现在基本搜不到虚拟主机了，像阿里云也不怎么...
Yarn调度器(Scheduler)详解

本文转载自微信公众号「Java大数据与数据仓库」，作者老董。转载本文请联系Java...
每秒处理107万张图片！阿里云打破MLPerf

今天，国际权威AI基准测试MLPerf公布了2021年最新推理测试榜单。图像分类性能测...
准备工作_裸金属服务器 BMS_快速入门

在使用裸金属服务器前，您需要完成本文中的准备工作。注册华为云并实名认证为...
云服务器内存最大多少

云服务器内存最大多少？内存是决定云服务器性能的非常重要的一个参数，内存最...

智能、互联时代的应用运维——《应用智能运维实践（试读版）》

推荐图文

新增磁盘_云耀云服务器 HECS_用户指南_云硬盘

Java都到16了，为什么都还在用8，是越做越烂了么？

阿里闪电保护域名：凌晨三点拿下商标域名

如何构建业务数据分析体系

腾讯多媒体实验室刘杉：5G时代来临，多媒体快速演进

一序言——Elasticsearch

随机推荐

7种会导致业务失败的数据分析方法

云服务器绑定密钥对 - API 文档

《Spring 手撸专栏》| 开篇介绍，我要带

SLS开放告警简介

步骤二：网络配置_弹性云服务器 ECS_快速

腾讯云虚拟主机叫什么

Yarn调度器(Scheduler)详解

每秒处理107万张图片！阿里云打破MLPerf

准备工作_裸金属服务器 BMS_快速入门

云服务器内存最大多少

关于我们