当前位置:主页 > 查看内容

工作负载状态异常时K8S事件的定位思路和解决方法_云容器引擎 CCE

发布时间:2021-09-24 00:00| 位朋友查看

简介:工作负载状态异常时,建议先查看K8S事件以便于确定导致异常的初步原因,再参照 表2 中的内容针对性解决问题。 在 CCE控制台 中,单击左侧导航栏的 “工作负载” ,单击异常工作负载名称,进入详情页面,查看实例最新事件,详细步骤如下: 查看K8S事件,初步……

工作负载状态异常时,建议先查看K8S事件以便于确定导致异常的初步原因,再参照表2中的内容针对性解决问题。

CCE控制台中,单击左侧导航栏的“工作负载”,单击异常工作负载名称,进入详情页面,查看实例最新事件,详细步骤如下:

查看K8S事件,初步定位异常原因

  1. CCE控制台中,单击左侧导航栏的“工作负载 > 无状态负载 Deployment”“工作负载 > 有状态负载 StatefulSet”
  2. 在工作负载列表中,单击异常工作负载的名称进入详情页。
  3. 在“实例列表”页签下,查看该工作负载的“最新事件”“K8S事件”信息。

    如下图,K8S事件提示为“0/163 nodes are available: 133 Insufficient memory”,此时工作负载状态为未就绪,事件为实例调度失败,即表示内存不足。

    图1 实例调度失败
    表1 调度失败信息

    事件信息

    说明

    解读

    no nodes available to schedule pods

    表示没有节点资源调度工作负载实例。

    /

    0/163 nodes are available: 133 Insufficient memory

    表示节点可用,但内存不足。

    • 0/163 nodes are available:此集群共有163个节点,其中有0个满足调度规则。
    • 133 Insufficient memory:133个节点内存不足。

    163 Insufficient cpu

    表示CPU不足。

    163个节点CPU不足。

    49 Insufficient nvidia.com/gpu

    表示nvidia.com/gpu不足。

    49个节点GPU不足。

    49 InsufficientResourceOnSingleGPU

    表示GPU资源不足。

    /

    0/2 nodes are available: 1 node(s) didn't match pod affinity/anti-affinity, 1 node(s) had taints that the pod didn't tolerate.

    由于工作负载的反亲和策略,导致新增Pod无法调度到已经运行该工作负载Pod实例的节点上。

    /

    若出现此K8S事件,请参照下方几种方式排查工作负载异常原因。

排查思路

以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。

如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。

图2 排查思路
表2 排查思路列表

事件或状态异常信息

处理措施

K8S事件提示“实例调度失败”

请参考工作负载异常:实例调度失败

K8S事件提示“重新拉取镜像失败”

请参考工作负载异常:重新拉取镜像失败

K8S事件提示“重新启动容器失败”

请参考工作负载异常:重新启动容器失败

实例状态为“Evicted”,pod不断被驱逐

请参考工作负载异常:实例驱逐异常(Evicted)

K8S事件提示“实例挂卷失败”

请参考工作负载异常:存储卷无法挂载或挂载超时

实例状态一直为“创建中”

请参考工作负载异常:一直处于创建中

实例状态一直为“结束中”

请参考工作负载异常:结束中,解决Terminating状态的Pod删不掉的问题

实例状态为“已停止”

请参考工作负载异常:已停止

提交工单

如果上述方法均不能解决您的疑问,提交工单寻求更多帮助。


本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐