当前位置：主页 > 查看内容

Pull or Push？监控系统如何选型

发布时间：2021-08-09 00:00| 有位朋友查看

简介：形形色色的监控系统监控一直是IT系统中的核心组成部分负责问题的发现以及辅助性的定位。无论是传统运维、SRE、DevOps、开发者都需要关注监控系统并参与到监控系统的建设和优化。从最开始大型机的作业系统、Linux基础指标监控系统就已经开始出现并逐渐演进……

形形色色的监控系统

监控一直是IT系统中的核心组成部分负责问题的发现以及辅助性的定位。无论是传统运维、SRE、DevOps、开发者都需要关注监控系统并参与到监控系统的建设和优化。从最开始大型机的作业系统、Linux基础指标监控系统就已经开始出现并逐渐演进现阶段能够搜索到的监控系统不下于上百种按照不同类别也有非常多的划分方式例如

监控对象通用型通用的监控方式适应于大部分的监控对象专一型为某一功能定制例如Java的JMX系统、CPU的高温保护、硬盘的断电保护、UPS切换系统、交换机监控系统、专线监控等数据获取方式 Push CollectD、Zabbix、InfluxDB Pull Prometheus、SNMP、JMX 部署方式耦合式和被监控系统在一起部署单机单机单实例部署分布式可以横向扩展 SaaS化很多商业的公司提供SaaS的方式无需部署数据获取方式接口型只能通过某些API拿去 DSL 可以有一些计算例如PromQL、GraphQL SQL 标准SQL、类SQL 商业属性开源免费例如Prometheus、InfluxDB单机版开源商业型例如InfluxDB集群版、Elastic Search X-Pack 闭源商业型例如DataDog、Splunk、AWS Cloud Watch Pull or Push

对于建设一套公司内部使用的监控系统平台相对来说可选的方案还是非常多的无论是用开源方案自建还是使用商业的SaaS化产品都有比较多的可选项。但无论是开源方案还是商业的SaaS产品真正实施起来都需要考虑如何将数据给到监控平台或者说监控平台如何获取到这些数据。这里就涉及到数据获取方式的选型 Pull 拉还是Push 推模式

基于Pull类型的监控系统顾名思义是由监控系统主动去获取指标需要被监控的对象能够具备被远端访问的能力基于Push类型的监控系统不主动获取数据而是由监控对象主动推送指标。两种方式在非常多的地方都有区别对于监控系统的建设和选型来说一定要事先了解这两种方式各自的优劣选择合适的方案来实施否则如果盲目实施后续对监控系统的稳定性和部署运维代价来说将是灾难性的。

Pull vs Push概览

下面将从几个方面来展开介绍为了节约读者时间这里先用一个表格来做概要性的论述细节在后面会展开

一级分类

二级分类

Pull

Push

原理与部署

配置

原生中心化配置

端上配置通过配置中心支持中心化

监控对象发现

依赖服务发现机制例如Zookeeper、Etcd、Consul等注册中心

由应用、Agent自主上报无需服务发现模块

部署方式

应用暴露端口接入服务发现原生支持Pull协议其他系统例如主机、MySQL、NGINX等中间件依赖适配器也成为Exporter 去抓取指标再提供Pull端口Agent统一代理抓取主机、MySQL等中间件数据推送到监控系统 Agent也可以作为转发器接收应用推送应用主动推送到监控系统

扩展性

可扩展性

依赖Pull端扩展需要Pull Agent和存储解耦原生Prometheus不支持 Push Agent按照分片划分

简单本身Agent可横向扩展

能力对比

监控对象存活性

简单

无法区分对象未存活的原因

数据齐全度计算

Pull端和存储耦合部署时较简单Pull Agent分布式部署下较困难

较困难

短生命周期 Job、Serverless /数据获取实时性

难以适用

适用

指标获取灵活性

On Demand按需获取

被动接受需要一些过滤器额外支持

应用耦合性

应用与监控系统解耦应用无需关心Push的对端地址、Push错误处理等

耦合性相比Pull较高

机器、人力代价

资源消耗

应用暴露端口方式资源消耗低Exporter方式资源消耗较高应用推送方式资源消耗低Agent方式资源消耗较低可同时采集多套系统

安全性保证

工作量大需要保证应用暴露端口的安全性以及Exporter端口的安全性容易被DDos攻击或者出现数据泄露

低 Agent与服务端一般都进行带有加密、鉴权的数据传输

核心运维消耗

Pull Agent稳定性与扩容服务端稳定性与扩容服务发现系统稳定性Exporter稳定性与扩容网络连通性保障反向连通性跨集群、网络ACL Push Agent稳定性服务端稳定性与扩容配置中心稳定性与扩容可选网络连通性保障正向连通性较简单

原理与架构对比

如上图所示 Pull模型数据获取的核心是Pull模块一般和监控的后端一起部署例如Prometheus 核心组成包括

服务发现系统包括主机的服务发现一般依赖于公司内部自己的CMDB系统、应用服务发现例如Consul 、PaaS服务发现例如Kubernetes Pull模块需要具备对这些服务发现系统的对接能力Pull核心模块除了服务发现部分外一般使用通用协议去远端拉取数据一般支持配置拉取间隔、超时间隔、指标过滤/Rename/简单的Process能力应用侧SDK 支持监听某个固定端口来提供被Pull的能力由于各类中间件/其他系统不兼容Pull协议因此需要开发对应的Exporter的Agent 支持拉取这些系统的指标并提供标准的Pull接口

Push模型相对比较简单

Push Agent 支持拉取各类被监控对象的指标数据并推送到服务端可以和被监控系统耦合部署也可以单独部署ConfigCenter 可选用来提供中心化的动态配置能力例如监控目标、采集间隔、指标过滤、指标处理、远端目标等应用侧SDK 支持发送数据到监控后端或者发送到本地Agent 通常是本地Agent也实现一套后端的接口

小结纯粹从部署复杂性上而言在中间件/其他系统的监控上 Pull模型的部署方式太过复杂维护代价较高使用Push模式较为便捷应用提供Metrics端口或主动Push部署代价相差不大。

Pull的分布式解决方案

在扩展性上 Push方式的数据采集天然就是分布式的在监控后端能力可以跟上的时候可以无限的横向扩展。相比之下Pull方式扩展较为麻烦需要

Pull模块与监控后端解耦 Pull作为Agent单独部署Pull Agent需要做分布式的协同一般最简单是做Sharding 例如从服务发现系统处获取被监控的机器列表对这些机器进行Hash后取模Sharding来决定由哪个Agent来负责Pull。新增一个配置中心可选用来管理各个PullAgent

相信反应快的同学已经看出来这种分布式的方式还是有一些问题

单点瓶颈还是存在所有的Agent都需要去请求服务发现模块Agent扩容后监控目标会变化容易产生数据重复或缺失监控能力对比监控目标存活性

存活性是监控所需要做的第一件也是最基础的工作 Pull模式监控目标存活性相对来说非常简单直接在Pull的中心端就知道能否请求到目标端的指标如果失败也能知道一些简单的错误比如网络超时、对端拒绝连接等。

Push方式相对来说就比较麻烦应用没有上报可能是应用挂了也可能是网络问题也可能是迁移到了其他的节点上了因为Pull模块可以和服务发现实时联动但Push没有所以只有服务端再和服务发现交互才能知道具体失败的原因。

数据齐全度计算

数据齐全度这个概念在大型的监控系统中还是非常重要的比如监控一千个副本的交易应用的QPS 这个指标需要结合一千个数据进行叠加如果没有数据齐全度的概念若配置QPS相比降低2%告警由于网络波动超过20个副本上报的数据延迟几秒那就会触发误报。因此在配置告警的时候还需要结合数据齐全度数据进行综合考虑。

数据齐全度的计算也一样是依赖于服务发现模块 Pull方式是按照一轮一轮的方式进行拉取所以一轮拉取完毕后数据就是齐全的即使部分拉取失败也知道数据不全的百分比是多少

而Push方式由每个Agent、应用主动Push 每个客户端的Push间隔、网络延迟都不一样需要服务端去根据历史情况计算数据齐全度相对代价比较大。

短生命周期/Serverless应用监控

在实际场景中短生命周期/Serverless的应用也有很多尤其是对成本友好的情况下我们会大量使用Job、弹性实例、无服务应用等例如渲染型的任务到达后启动一个弹性的计算实例执行完毕后立马销毁释放机器学习的训练Job、事件驱动的无服务工作流、定期执行的Job 例如资源清理、容量检查、安全扫描等。这些应用通常生命周期极短可能在秒级或毫秒级 Pull的定期模型极难去监控一般都需要使用Push的方式由应用主动推送监控数据。

为了应对这种短生命周期的应用纯Pull的系统都会提供一个中间层例如Prometheus的Push Gateway 接受应用主动Push 再提供Pull的端口给监控系统。但这就需要额外多个中间层的管理和运维成本而且由于是Pull模拟Push 上报的延迟会升高而且还需要即使清理这些立即消失的指标。

灵活性与耦合度

从灵活性上来讲 Pull模式稍微有一些优势可以在Pull模块配置到底想要哪些指标对指标做一些简单的计算/二次加工但这个优势也是相对的 Push SDK/Agent也可以去配置这些参数借助于配置中心的存在配置管理起来也是很简单的。

从耦合度上讲 Pull模型和后端的耦合度要低很多只需要提供一个后端可以理解的接口即可具体连接哪个后端后端需要哪些指标等不用关心相对分工比较明确应用开发者只需要暴露应用自己的指标即可由SRE 监控系统管理者来获取这些指标 Push模型相对来说耦合度要高一些应用需要配置后端的地址以及鉴权信息等但如果借助于本地的Push Agent 应用只需要Push本地地址相对来说代价也并不大。

运维与成本对比资源成本

从整体成本上讲两种方式总体的差别不大但从归属方角度来看

Pull模式核心消耗在监控系统侧应用侧的代价较低Push模式核心消耗在推送和Push Agent端监控系统侧的消耗相比Pull要小很多运维成本

从运维角度上讲相对而言Pull模式的代价要稍高 Pull模式需要运维的组件包括各类Exporter、服务发现、PullAgent、监控后端而Push模式只需要运维 Push Agent、监控后端、配置中心可选部署方式一般是和监控后端一起。

这里需要注意的一点是 Pull模式由于是服务端向客户端主动发起请求网络上需要考虑跨集群连通性、应用侧的网络防护ACL等相比Push的网络连通性比较简单只需要服务端提供一个可供各节点访问的域名/VIP即可。Pull or Push如何选型

目前开源方案 Pull模式的代表Prometheus的家族方案之所以称之为家族主要是默认单点的Prometheus扩展性受限社区有非常多Prometheus的分布式方案比如Thanos、VictoriaMetrics、Cortex等 Push模式的代表InfluxDB的TICK Telegraf, InfluxDB, Chronograf, Kapacitor 方案。这两种方案都有各自的优缺点在云原生的大背景下随着Prometheus在CNCF、Kubernetes带领下的大火很多开源软件都开始提供Prometheus模式的Pull端口但同时还有很多系统本身设计之初就难以提供Pull端口这些系统的监控相比而言使用Push Agent方式更为合理。

而应用本身到底该使用Pull还是Push一直没有一个很好的定论具体的选型还需要根据公司内部的实际场景例如如果公司集群的网络很复杂使用Push方式较为简单有很多短生命周期的应用需要使用Push方式移动端应用只能用Push方式系统本身就用Consul做服务发现只需要暴露Pull端口就可以很容易实施。

所以综合考虑情况下对于公司内部的监控系统来说应该同时具备Pull和Push的能力才是最优解

主机、进程、中间件监控使用Push AgentKubernetes等直接暴露Pull端口的使用Pull模式应用根据实际场景选择Pull or PushSLS在Pull和Push上的策略

SLS目前支持日志 Log 、时序监控 Metric 、分布式链路追踪 Trace 的统一存储和分析。对于时序监控方案是兼容Prometheus的格式标准提供的也是标准的PromQL语法。面对数十万SLS的用户应用场景可能会千差万别不可能用单一的Pull或Push来对应所有客户需求。因此SLS在Pull和Push的选型上SLS并没有走单一路线而是兼容Pull和Push模型。此外对于开源社区和Agent SLS的策略是完全兼容开源生态而非自己去造一个闭合生态

Pull模型完全兼容Prometheus的Pull Scrap能力。可以使用Prometheus的Remote Write 让Prometheus来做Pull的Agent 和Prometheus Scrap一样能力的VMAgent也可以这样使用 SLS自己的Agent Logtail也可以实现Prometheus的Scrap能力Push模型目前业界的监控PushAgent生态最完善的当属Telegraf SLS的Logtail内置了Telegraf 可以支持所有的Telegraf的上百种监控插件

相比VMAgent、Prometheus这类Pull Agent以及原生Telegraf SLS额外提供了最迫切的Agent配置中心和Agent监控能力可以在服务端去管理每个Agent的采集配置以及监控这些Agent的运行状态尽可能降低运维管理代价。

因此实际使用SLS进行监控方案的搭建会非常简单

在SLS的控制台 Web页面去创建一个存储监控数据的MetricStore部署Logtail的Agent 一行命令在控制台上配置监控数据的采集配置 Pull、Push都可以

总结

本文主要介绍了监控系统中最纠结的Pull or Push选择问题笔者结合数年的实际经验以及遇到的各类客户场景对Pull和Push的各类方向进行了比对仅供大家在监控系统建设过程中参考也欢迎大家留言和讨论。

对SLS技术感兴趣的小伙伴们可以关注

SLS 日志服务云原生观测分析平台
https://www.aliyun.com/product/sls知乎智能日志分析专栏

https://www.zhihu.com/column/aliyunlog

更多SLS的系列直播与培训视频会同步到微信公众号与B站敬请留意

https://blog.sflow.com/2012/08/push-vs-pull.html https://steve-mushero.medium.com/push-vs-pull-configs-for-monitoring-c541eaf9e927 https://giedrius.blog/2019/05/11/push-vs-pull-in-monitoring-systems/https://docs.victoriametrics.com/vmagent.html https://github.com/influxdata/telegraf https://sls.aliyun.com/
本文转自网络，原文链接：https://developer.aliyun.com/article/786418
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：TCP之滑动窗口原理 下一篇：没有了

随机推荐

云计算专家如何弥补网络安全技能差距

网络安全技能的差距如今仍然是一个现实问题，但最终可能会解决。根据(ISC)公司发...
香港免备案服务器租用的优势

对于香港免备案服务器租用有什么优势？它和国内服务器租用相比好在哪里？可...
ETL工程师必看！超实用的任务优化与断点

前言随着大数据时代的快速发展，企业每天需要存储、计算、分析数以万亿的数据，...
云服务器退还实例 - API 文档

1. 接口描述接口请求域名： cvm.tencentcloudapi.com 。本接口 (TerminateInst...
OpenStack Nova API_弹性云服务器 ECS_AP

查询API版本信息生命周期管理状态管理网络管理安全组管理规格管理网卡管理...
公司邮箱如何注册申请

公司邮箱如何注册申请？通常公司邮箱就是企业邮箱，现在企业在日常管理和对...
8行代码手把手教你搭建智能机器人平台

我们传统的应用开发中，部署一个应用服务器基本上是必须的，而通过serverless应...
一个淘宝的bug，让我弄懂了它的底层逻辑

女朋友在刷淘宝的时候遇到一个体验问题，她先下了一个单，但是发现地址错了，要...
Flink 和 Iceberg 如何解决数据入湖面临

GitHub 地址 https://github.com/apache/flink 欢迎大家给 Flink 点赞送 star~ ...
CVPR2021 6篇惊艳审稿人的抠图算法&a

本文包含了 6 篇抠图相关的论文代码内容，主要包含两个大方向：图像抠图和视频抠...

Pull or Push？监控系统如何选型

推荐图文

Redis基础必备

vps服务器租用抽风原因及解决办法

最便宜域名多少钱

手撸Golang 基本数据结构与算法 k-means聚类算法

以“数”制“疫” 大数据如何推动疫情防控？

从Hadoop到Spark和Flink，大数据处理框架十年激荡发

随机推荐

云计算专家如何弥补网络安全技能差距

香港免备案服务器租用的优势

ETL工程师必看！超实用的任务优化与断点

云服务器退还实例 - API 文档

OpenStack Nova API_弹性云服务器 ECS_AP

公司邮箱如何注册申请

8行代码手把手教你搭建智能机器人平台

一个淘宝的bug，让我弄懂了它的底层逻辑

Flink 和 Iceberg 如何解决数据入湖面临

CVPR2021 6篇惊艳审稿人的抠图算法&a

关于我们