当前位置：主页 > 查看内容

K8s Scheduler 在调度 pod 过程中遗漏部分节点的问题排查

发布时间：2021-05-13 00:00| 有位朋友查看

简介：问题现象在TKE控制台上新建版本为v1.18.4（详细版本号 v1.18.4-tke.5）的独立集群，其中，集群的节点信息如下：有3个master node和1个worker node，并且worker 和 master在不同的可用区。 node 角色 label信息 ss-stg-ma-01 master label[failure-domain.b……

问题现象

在TKE控制台上新建版本为v1.18.4（详细版本号 < v1.18.4-tke.5）的独立集群，其中，集群的节点信息如下：

有3个master node和1个worker node，并且worker 和 master在不同的可用区。

node	角色	label信息
ss-stg-ma-01	master	label[failure-domain.beta.kubernetes.io/region=sh,failure-domain.beta.kubernetes.io/zone=200002]
ss-stg-ma-02	master	label[failure-domain.beta.kubernetes.io/region=sh,failure-domain.beta.kubernetes.io/zone=200002]
ss-stg-ma-03	master	label[failure-domain.beta.kubernetes.io/region=sh,failure-domain.beta.kubernetes.io/zone=200002]
ss-stg-test-01	worker	label[failure-domain.beta.kubernetes.io/region=sh,failure-domain.beta.kubernetes.io/zone=200004]

待集群创建好之后，再创建出一个daemonset对象，会出现daemonset的某个pod一直卡住pending状态的现象。
现象如下：

$ kubectl  get  pod  -o  wide
NAME        READY STATUS  RESTARTS AGE NODE 
debug-4m8lc 1/1   Running 1        89m  ss-stg-ma-01
debug-dn47c 0/1   Pending 0        89m  <none>
debug-lkmfs 1/1   Running 1        89m   ss-stg-ma-02
debug-qwdbc 1/1   Running 1        89m  ss-stg-test-01

（补充：TKE当前支持的最新版本号为v1.18.4-tke.8，新建集群默认使用最新版本）

问题结论

k8s的调度器在调度某个pod时，会从调度器的内部cache中同步一份快照（snapshot），其中保存了pod可以调度的node信息。
上面问题（daemonset的某个pod实例卡在pending状态）的原因就是同步的过程发生了部分node信息丢失，导致了daemonset的部分pod实例无法调度到指定的节点上，卡在了pending状态。

接下来是详细的排查过程。

日志排查

截图中出现的节点信息（来自客户线上集群）：
k8s master节点：ss-stg-ma-01、ss-stg-ma-02、ss-stg-ma-03
k8s worker节点：ss-stg-test-01

1、获取调度器的日志
这里首先是通过动态调大调度器的日志级别，比如，直接调大到V(10)，尝试获取一些相关日志。
当日志级别调大之后，有抓取到一些关键信息，信息如下：

解释一下，当调度某个pod时，有可能会进入到调度器的抢占preempt环节，而上面的日志就是出自于抢占环节。
集群中有4个节点（3个master node和1个worker node），但是日志中只显示了3个节点，缺少了一个master节点。
所以，这里暂时怀疑下是调度器内部缓存cache中少了node info。

2、获取调度器内部cache信息
k8s v1.18已经支持打印调度器内部的缓存cache信息。打印出来的调度器内部缓存cache信息如下：

可以看出，调度器的内部缓存cache中的node info是完整的（3个master node和1个worker node）。
通过分析日志，可以得到一个初步结论：调度器内部缓存cache中的node info是完整的，但是当调度pod时，缓存cache中又会缺少部分node信息。

问题根因

在进一步分析之前，我们先一起再熟悉下调度器调度pod的流程（部分展示）和nodeTree数据结构。

pod调度流程（部分展示）

结合上图，一次pod的调度过程就是一次Scheduler Cycle。在这个Cycle开始时，第一步就是update snapshot。snapshot我们可以理解为cycle内的cache，其中保存了pod调度时所需的node info，而update snapshot，就是一次nodeTree（调度器内部cache中保存的node信息）到snapshot的同步过程。
而同步过程主要是通过nodeTree.next()函数来实现，函数逻辑如下：

// next returns the name of the next node. NodeTree iterates over zones and in each zone iterates
// over nodes in a round robin fashion.
func (nt *nodeTree) next() string {
    if len(nt.zones) == 0 {
        return ""
    }
    numExhaustedZones := 0
    for {
        if nt.zoneIndex >= len(nt.zones) {
            nt.zoneIndex = 0
        }
        zone := nt.zones[nt.zoneIndex]
        nt.zoneIndex++
        // We do not check the exhausted zones before calling next() on the zone. This ensures
        // that if more nodes are added to a zone after it is exhausted, we iterate over the new nodes.
        nodeName, exhausted := nt.tree[zone].next()
        if exhausted {
            numExhaustedZones++
            if numExhaustedZones >= len(nt.zones) { // all zones are exhausted. we should reset.
                nt.resetExhausted()
            }
        } else {
            return nodeName
        }
    }
}

再结合上面排查过程得出的结论，我们可以再进一步缩小问题范围：nodeTree（调度器内部cache）到的同步过程丢失了某个节点信息。

\### nodeTree数据结构
（方便理解，本文使用了链表来展示）

在nodeTree数据结构中，有两个游标zoneIndex 和 lastIndex（zone级别），用来控制 nodeTree（调度器内部cache）到snapshot.nodeInfoList的同步过程。并且，重要的一点是：上次同步后的游标值会被记录下来，用于下次同步过程的初始值。

\### 重现问题，定位根因

创建k8s集群时，会先加入master node，然后再加入worker node（意思是worker node时间上会晚于master node加入集群的时间）。

第一轮同步：3台master node创建好，然后发生pod调度（比如，cni 插件，以daemonset的方式部署在集群中），会触发一次nodeTree（调度器内部cache）到的同步。同步之后，nodeTree的两个游标就变成了如下结果：

nodeTree.zoneIndex = 1,
nodeTree.nodeArray[sh:200002].lastIndex = 3,

第二轮同步：当worker node加入集群中后，然后新建一个daemonset，就会触发第二轮的同步（nodeTree（调度器内部cache）到的同步）。同步过程如下：

1、 zoneIndex=1, nodeArray[sh:200004].lastIndex=0, we get ss-stg-test-01.

2、 zoneIndex=2 >= len(zones); zoneIndex=0, nodeArray[sh:200002].lastIndex=3, return.

3、 zoneIndex=1, nodeArray[sh:200004].lastIndex=1, return.

4、 zoneIndex=0, nodeArray[sh:200002].lastIndex=0, we get ss-stg-ma-01.

5、 zoneIndex=1, nodeArray[sh:200004].lastIndex=0, we get ss-stg-test-01.

6、 zoneIndex=2 >= len(zones); zoneIndex=0, nodeArray[sh:200002].lastIndex=1, we get ss-stg-ma-02.

同步完成之后，调度器的snapshot.nodeInfoList得到如下的结果：

[
    ss-stg-test-01,
    ss-stg-ma-01,
    ss-stg-test-01,
    ss-stg-ma-02,
]

ss-stg-ma-03 去哪了？在第二轮同步的过程中丢了。

解决方案

从问题根因的分析中，可以看出，导致问题发生的原因，在于 nodeTree 数据结构中的游标 zoneIndex 和 lastIndex（zone级别）值被保留了，所以，解决的方案就是在每次同步SYNC时，强制重置游标（归0）。
相关issue：https://github.com/kubernetes...
相关pr(k8s v1.18)： https://github.com/kubernetes...
TKE修复版本：v1.18.4-tke.5

【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯，扫码关注同名公众号，及时获取更多干货！！

本文转自网络，版权归原作者所有，原文链接：https://segmentfault.com/a/1190000039991689
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：【白话科普】上网时遇到的 404 是什么意思？ 下一篇：学会这20+个JavaScript单行代码，可以让你的代码更加骚气

随机推荐

HTML外部样式表如何引入CSS样式

链入式是把所有的样式放在一个或多个外部样式表文件中，这个文件是以 css 为...
移动端Html5中百度地图的点击事件

根据百度地图官方解释，在移动端 H5 页面中可监听下面这 4 个事件: touchstart, ...
写给初用Nestj做项目的你(第二篇: 配置gi

写给初用Nestj做项目的你(第二篇: 配置gitlab-runner操作gitlab) 如果不想自己搭...
dreamweaver教程之怎么快速批处理图片链

对于网页制作者来说，最烦琐的事情可能就是给页面中的图片或文字加链接了。假如...
建党百年献礼-智慧三维云展厅可视化

前言 2021 年中国共产党将迎来建党 100 周年。百年来中国社会发生了沧桑巨变。从...
IDEA 2021首个大版本发布，Java开发者感

工欲善其事，必先利其器！就在不久之前，Java领域的开发神器 IntelliJ IDEA 终...
在XSLT样式表中声明命名空间小结

考虑以下两段代码：复制代码代码如下: urlset url lochttp://www.caixw.com/ar...
HTML5在手机端实现视频全屏展示方法

最近做项目，遇到一个问题，在手机上要实现视频的全屏播放功能。测试了很久，终...
奇妙的 CSS 属性 MASK详解

本文将介绍 CSS 中一个非常有意思的属性 mask 。顾名思义，mask 译为遮罩。在 C...
网页中内容显示过多如何从bottom快速回到

web前端开发中避免不了要在页面上显示很多文章，如何才能从文中，文末点击快捷的...

K8s Scheduler 在调度 pod 过程中遗漏部分节点的问题排查

问题现象

问题结论

日志排查

问题根因

pod调度流程（部分展示）

解决方案

推荐图文

使用canvas一步步实现图片打码功能的方法

网页制作绝对路径与相对路径的区别

解决line-height=height元素高度但是文字并没有垂直

Dreamweaver CS6安装失败提示配置错误代码16该怎么

技术干货 | 轻松两步完成向 mPaaS 小程序传递启动参

固定在网页右侧的浮动层实现代码

随机推荐

HTML外部样式表如何引入CSS样式

移动端Html5中百度地图的点击事件

写给初用Nestj做项目的你(第二篇: 配置gi

dreamweaver教程之怎么快速批处理图片链

建党百年献礼-智慧三维云展厅可视化

IDEA 2021首个大版本发布，Java开发者感

在XSLT样式表中声明命名空间小结

HTML5在手机端实现视频全屏展示方法

奇妙的 CSS 属性 MASK详解

网页中内容显示过多如何从bottom快速回到

关于我们