当前位置:主页 > 查看内容

当集群状态为“不可用”时,如何排查解决?_云容器引擎 CCE_常见

发布时间:2021-09-24 00:00| 位朋友查看

简介:当集群状态显示为 “不可用” 时,请参照如下方式来排查解决。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 排……

当集群状态显示为“不可用”时,请参照如下方式来排查解决。

排查思路

以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。

如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。

图1 排查思路

排查项一:安全组是否被修改

  1. 登录华为云控制台,选择“服务列表 > 网络 > 虚拟私有云 VPC”,单击左侧导航栏的“访问控制 > 安全组”,找到集群主节点的安全组。

    主节点安全组名称为:集群名称-cce-control-编号,如图2
    图2 集群主节点

  2. 单击安全组名称,进入详情页面,请确保集群主节点的安全组规则与下图红框中配置的值相同。

    图3 查看安全组规则-入方向

    安全组入方向规则解读:

    • 4789:容器间网络互访。
    • 5443-5444:node的kubelet监听master的kube-api。
    • 9443:node的canal监听master的canal-api。
    • 8445:node的stroage_driver访问master的csms-storagemgr。
    图4 查看安全组规则-出方向

排查项二:手动检查LB是否有监听器和后端服务器组残留

模拟异常状态:

创删负载均衡(LoadBalancer,简称LB)类型service的任务执行时发生集群异常,恢复后会出现service删除成功,但是LB的监听器和后端服务器组残留。

  1. 预创建CCE集群,在集群内使用nginx官方镜像创建工作负载、预置lb、各类型service、ingress等资源。
  2. 保持集群正常运行,nginx负载处于稳态。
  3. 持续间隔每20s创建删除10个lb类型的service。
  4. 集群出现注入异常:如etcd实例不可用、集群休眠等问题。

问题原因:

异常注入时正在进行创建或删除过程中的lb-service被删除了,但是elb内有监听器和后端服务器组残留。

解决方案:

可以手动清理残留的监听器和后端服务器组。

  1. 登录控制台,单击服务列表中“网络 > 弹性负载均衡 ELB”
  2. 在负载均衡器列表中,单击对应的ELB名称进入详情页,在“监听器”页签下找到残留的监听器,单击后方的删除图标进行删除操作。
  3. “后端服务器组”页签下找到残留的后端服务器组,单击后方的删除图标进行删除操作。

本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐