当前位置:主页 > 查看内容

系统体检_云容器引擎 CCE_用户指南_系统管家

发布时间:2021-09-23 00:00| 位朋友查看

简介:操作场景 系统管家主要分为两部分:系统体检和系统加固,本章节主要介绍系统体检。 系统体检主要用于实时检测并发现节点上的一些故障或者异常情况。 前提条件 使用系统体检功能前需安装 npd插件 ,该插件用于检测节点异常。 使用系统体检功能前需安装 promet……

操作场景

系统管家主要分为两部分:系统体检和系统加固,本章节主要介绍系统体检。

系统体检主要用于实时检测并发现节点上的一些故障或者异常情况。

前提条件

  • 使用系统体检功能前需安装npd插件,该插件用于检测节点异常。
  • 使用系统体检功能前需安装prometheus插件,使用该插件可以获取npd上报的异常指标。

操作步骤

  1. 登录CCE控制台,在左侧导航栏中选择系统管家 > 系统体检
  2. 在系统体检页面左侧“节点”区域单击需要进行系统体检的节点,可以看到指标检查、行为统计和Kubernetes事件三个页签,有如下两种情况:

    未安装插件:

    若未安装npdprometheus插件,请按照页签下的提示进行安装。

    插件安装完成后,单击系统管家 > 系统体检返回系统体检页面查看体检信息。
    图1 安装系统体检所需插件

    已安装插件:

    若已安装插件,单击指标检查、行为统计和Kubernetes事件三个页签后可直接查看体检信息。

    图2 查看体检信息

  3. 单击“指标检查”页签,可以查看系统资源、系统组件、异常行为和其他信息,并根据体检信息提示进行相应操作。

    表1 创建集群须知

    检查名称

    检查项

    描述

    系统资源

    磁盘

    节点磁盘使用情况

    内存

    节点内存使用情况

    PID

    节点PID进程使用情况

    系统组件

    CNI

    CNI组件运行情况

    DOCKER

    Docker组件运行情况

    KUBELET

    Kubelet组件运行情况

    KUBEPROXY

    Kubeproxy组件运行情况

    NTP

    NTP组件运行情况

    异常行为

    频繁重启Containerd

    Containerd频繁重启

    频繁重启Docker

    Docker频繁重启

    频繁重启Kubelet

    Kubelet频繁重启

    频繁注销网络设备

    网络设备比如网卡,频繁注销

    其他

    Ready

    节点状态是否ready

  4. 单击“行为统计”页签,可以查看行为信息和行为发生的次数。
  5. 单击“Kubernetes事件”页签,可以查看该节点的事件名称、事件类型、发生次数、Kubernetes事件、首次和最近发生的时间。

    事件保存时间为1小时,1小时后自动清除数据。

恢复建议

  • 对于系统资源不足,可以到节点上对系统资源进行扩容,或者调整内核参数调大上限。若还是无法恢复节点,可以给节点打上污点标记,使得pod不再调度到该节点,或者驱逐节点上的pod,隔离该节点。
  • 对于系统组件异常或者其他异常行为发生也可以采取给节点打上污点标记进行处理。

相关参考

  • 为节点打污点标记:Taints and Tolerations
  • 稳定驱逐:Safely Drain a Node while Respecting the PodDisruptionBudget
  • 如下三个命令可以保证维护节点时,平滑的将被维护节点上的业务迁移到其他节点上,保证业务不受影响:
    表2 标记节点为可调度或不可调度

    命令

    功能

    用法

    cordon

    标记节点为不可调度

    kubectl cordon {{node-name }}

    uncordon

    标记节点为可调度

    kubectl uncordon {{node-name }}

    drain

    标记节点为不可调度,并驱逐节点上的pod

    kubectl drain {{node-name }}


本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐