当前位置：主页 > 查看内容

工作负载状态异常时K8S事件的定位思路和解决方法_云容器引擎 CCE

发布时间：2021-09-24 00:00| 有位朋友查看

简介：工作负载状态异常时，建议先查看K8S事件以便于确定导致异常的初步原因，再参照表2 中的内容针对性解决问题。在 CCE控制台中，单击左侧导航栏的 “工作负载” ，单击异常工作负载名称，进入详情页面，查看实例最新事件，详细步骤如下：查看K8S事件，初步……

工作负载状态异常时，建议先查看K8S事件以便于确定导致异常的初步原因，再参照表2中的内容针对性解决问题。

在CCE控制台中，单击左侧导航栏的“工作负载”，单击异常工作负载名称，进入详情页面，查看实例最新事件，详细步骤如下：

在“实例列表”页签下，查看该工作负载的“最新事件”和“K8S事件”信息。

如下图，K8S事件提示为“0/163 nodes are available: 133 Insufficient memory”，此时工作负载状态为“未就绪”，事件为“实例调度失败”，即表示内存不足。

图1 实例调度失败

表1 调度失败信息
事件信息	说明	解读
no nodes available to schedule pods	表示没有节点资源调度工作负载实例。	/
0/163 nodes are available: 133 Insufficient memory	表示节点可用，但内存不足。	0/163 nodes are available：此集群共有163个节点，其中有0个满足调度规则。 133 Insufficient memory：133个节点内存不足。
163 Insufficient cpu	表示CPU不足。	163个节点CPU不足。
49 Insufficient nvidia.com/gpu	表示nvidia.com/gpu不足。	49个节点GPU不足。
49 InsufficientResourceOnSingleGPU	表示GPU资源不足。	/
0/2 nodes are available: 1 node(s) didn't match pod affinity/anti-affinity, 1 node(s) had taints that the pod didn't tolerate.	由于工作负载的反亲和策略，导致新增Pod无法调度到已经运行该工作负载Pod实例的节点上。	/

若出现此K8S事件，请参照下方几种方式排查工作负载异常原因。

以下排查思路根据原因的出现概率进行排序，建议您从高频率原因往低频率原因排查，从而帮助您快速找到问题的原因。

如果解决完某个可能原因仍未解决问题，请继续排查其他可能原因。

图2 排查思路

表2 排查思路列表
事件或状态异常信息	处理措施
K8S事件提示“实例调度失败”	请参考工作负载异常：实例调度失败
K8S事件提示“重新拉取镜像失败”	请参考工作负载异常：重新拉取镜像失败
K8S事件提示“重新启动容器失败”	请参考工作负载异常：重新启动容器失败
实例状态为“Evicted”，pod不断被驱逐	请参考工作负载异常：实例驱逐异常（Evicted）
K8S事件提示“实例挂卷失败”	请参考工作负载异常：存储卷无法挂载或挂载超时
实例状态一直为“创建中”	请参考工作负载异常：一直处于创建中
实例状态一直为“结束中”	请参考工作负载异常：结束中，解决Terminating状态的Pod删不掉的问题
实例状态为“已停止”	请参考工作负载异常：已停止

如果上述方法均不能解决您的疑问，请提交工单寻求更多帮助。

父主题： 工作负载异常

本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：负载均衡更换 HTTPS 类型负载均衡证书 - API 文档 下一篇：没有了

推荐图文