前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Prometheus实战篇:Prometheus监控docker

Prometheus实战篇:Prometheus监控docker

原创
作者头像
全干程序员demo
发布2024-01-11 21:49:34
9090
发布2024-01-11 21:49:34
举报

Prometheus实战篇:Prometheus监控docker

准备环境

监控docker

为了能够获取到Docker容器的运行状态,用户可以通过Docker的stats命令获取当前主机上运行容器的统计信息,可以查看容器的CPU利用率,内存使用量,网络IO总量以及磁盘IO总量等信息.

代码语言:shell
复制
docker stats

除了使用命令以外,用户还可以通过Docker提供的HTTP API查看容器详细的监控统计信息.

使用CAdvisor

CAdvisor是谷歌开源的一款用于展示和分析容器运行状态的可视化工具.通过在主机上运行CAdvisor用户可以轻松的获取到当前主机上容器的运行统计信息,并以图标的形式向用户展示.

docker命令安装

代码语言:shell
复制
docker run -d \
	--volume=/:/rootfs:ro \
	--volume=/var/run:/var/run:rw \
	--volume=/sys:/sys:ro \
	--volume=/var/lib/docker/:/var/lib/docker:ro \
	--publish=8080:8080 \
	--name=cadvisor \
	google/cadvisor:latest

Docker-compose安装

代码语言:shell
复制
mkdir /data/cadvisor

cd /data/cadvisor

#通过cat新建docker-compose.yaml文件

直接访问localhost:8080/containers/进入可视化界面

也可以在访问路径后面加上一个/metrics,可以看到输出的日志内容

http://localhost:8080/metrics

Prometheus配置

配置Prometheus去采集(拉取)nginx_exporter的监控样本数据

代码语言:shell
复制
cd /data/docker-prometheus

# 在scrapc_configs(搜刮配置):下面增加如下配置:
cat >prometheus/prometheus.yml <<FOF
 - job_name: 'cadvisor'
   static_configs:
   - targets: ['localhost:8080']
   	 labels:
   	 	instance: test服务器 
EOF

重新加载配置

代码语言:shell
复制
curl -x POST http://localhost:9090/-/reload

检查

常用的docker监控指标

指标名称

类型

含义

container_cpu_load_average_10s

gauge

过去10秒容器CPU平均负载

container_cpu_usage_seconds_total

counter

容器在每个CPU内核上累计占用时间(单位:秒)

container_cpu_system_seconds_total

counter

System CPU累计占用时间(单位:秒)

container_cpu_user_seconds_total

counter

User CPU累计占用时间(单位:秒)

container_fs_usage_bytes

gauge

容器中文件系统的使用量(单位:字节)

container_fs_limit_bytes

gauge

容器可以使用的文件系统总量(单位:字节)

container_fs_reads_bytes_total

counter

容器类及读取数据的总量(单位:字节)

container_fs_writes_bytes_total

counter

容器累计写入数据的总量(单位:字节)

container_memory_max_usage_bytes

gauge

容器的最大内存使用量(单位:字节)

container_memory_usage_bytes

gauge

容器当前的内存使用量

container_spec_memory_limit_bytes

gauge

容器内存使用量限制

machine_memory_bytes

gauge

当前主机的内存总量

container_network_receive_bytes_total

counter

容器网络累计接收数据总量(单位:字节)

container_network_transmit_bytes_total

counter

容器网络累计传输数据总量(单位:字节)

触发器配置

由于之前的触发器是全部写在了一个yml里面就是alert.yam,这样随着后面配置的触发器越来越多最终会变得难以维护.这里我们让它去读rules目录下所有的yml文件即可

Prometheus配置

代码语言:shell
复制
rule_files:
	- "alert.yml"
	- "rules/*.yml"

配置docker容器触发器

因为是单机所以未配置集群的触发器

代码语言:shell
复制
cat >prometheus/rules/mongodb.yml <<"EOF"
groups:
- name: DockerContainers
	rules:
    - alert: ContainerKilled
      expr: time() - container_last_seen >60
      for: 0m
      labels:
        severity: warning
      annotations:
          summary: "Docker容器被杀死,容器:$labels.instance"
          description: "{{ $value }}个容器消失了"
    - alert: ContainerAbsent
      expr: absent(container_last_seen)
      for: 5m
      labels:
        severity: warning
      annotations:
          summary: "无容器 容器:{{$labels.instance }}"
          description: "5分钟检查容器不存在,当前值为:{{ $value }}"
    - alert: ContainerCpuUsage
      expr: (sum(rate(container_cpu_usage_seconds_total{name!=""}[3m])) BY(instance, name)*100 ) > 300
      for: 2m
      labels:
        severity: warning
      annotations:
          summary: "容器cpu使用率告警,容器:{{$labels.instance }}"
          description: "容器cpu使用率超过300%,当前值为:{{ $value }}"
    - alert: ContainerMemoryUsage
      expr: (sum(container_memory_working_set_bytes{name!=""})BY (instance, name) /sum(container_spec_memory_limit_bytes > 0) BY (instance, name) * 100 ) > 80
      for: 2m
      labels:
        severity: warning
      annotations:
          summary: "容器内存使用率告警,容器:{{$labels.instance }}"
          description: "容器内存使用率超过80%,当前值为:{{ $value }}"
    - alert: ContainerVolumeIOUsage
      expr: (sum(container_fs_io_current{name!=""}) BY (instance, name) * 100) >80 
      for: 2m
      labels:
        severity: warning
      annotations:
          summary: "容器存储IO使用率告警,容器:{{$labels.instance }}"
          description: "容器存储IO使用率超过80%,当前值为:{{ $value }}"
    - alert: ContainerHighThrottleRate
      expr: rate(container_cpus_cfs_throttled_seconds_total[3m]) > 1 
      for: 2m
      labels:
        severity: warning
      annotations:
          summary: "容器限制告警,容器:{{$labels.instance }}"
          description: "容器被限制,当前值为:{{ $value }}"

   
EOF

一定记住这里需要仔细校对yaml语法,最好是能去在线验证yaml语法的网站上看看.yaml语法还是比较严格的一点缩进错误都不能有

检查配置

代码语言:shell
复制
docker exec -it prometheus promtool check config /etc/prometheus/prometheus.yml

重新加载配置

代码语言:shell
复制
curl -x POST http://localhost:9090/-/reload

检查

http://localhost:9090/alerts?search=

或:

http://localhost:9090/rules

dashboard

这里在grafana中搜索id=11600的仪表盘模板

id=11600

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Prometheus实战篇:Prometheus监控docker
    • 准备环境
      • 监控docker
        • 使用CAdvisor
        • docker命令安装
        • Docker-compose安装
        • Prometheus配置
        • 检查
        • 常用的docker监控指标
      • 触发器配置
        • 配置docker容器触发器
        • 检查配置
        • 重新加载配置
        • 检查
        • dashboard
    相关产品与服务
    Prometheus 监控服务
    Prometheus 监控服务(TencentCloud Managed Service for Prometheus,TMP)是基于开源 Prometheus 构建的高可用、全托管的服务,与腾讯云容器服务(TKE)高度集成,兼容开源生态丰富多样的应用组件,结合腾讯云可观测平台-告警管理和 Prometheus Alertmanager 能力,为您提供免搭建的高效运维能力,减少开发及运维成本。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
    http://www.vxiaotou.com