当前位置：主页 > 查看内容

【玩转腾讯云】调优笔记：记录CKafka消费堆积服务CPU未跑满

发布时间：2021-04-07 00:00| 有位朋友查看

简介：1. 背景 Proxy服务负责消费CKafka消息并解析，并分发消息至不同的CKafka topic。近期发现Proxy服务消费CKafka有消息堆积，且服务所在CVM CPU与内存资源大概只占用50%左右。如图所示可以看到，在数据量峰值的的时候，生产流量可以达到2000MB/小时，但是消费……

1. 背景

Proxy服务负责消费CKafka消息并解析，并分发消息至不同的CKafka topic。近期发现Proxy服务消费CKafka有消息堆积，且服务所在CVM CPU与内存资源大概只占用50%左右。

如图所示可以看到，在数据量峰值的的时候，生产流量可以达到2000MB/小时，但是消费流量达不到这么多，说明该服务有消息堆积。

其他说明：CKafka partition数量与服务实例数量正好一比一关系，CKafka 消费Client Concurrence设置为1。Proxy服务维护一个线程池，用于解析与分发消费的每一条消息。每当有消息进入服务时，每条消息会用一个线程进行解析消息并发送数据。

    @KafkaListener(topics = "topic")
    public void consumerKafkaMsg(List<ConsumerRecord<?, String>> records) throws Exception {
        for (ConsumerRecord<?, String> record : records) {
            log.debug("kafka topic = {}, value:\n{}", record.topic(), record.value());
            service.handleMsg(record);
        }
    }

    @PostConstruct
    public void init() {
        BlockingQueue<Runnable> workingQueue = new ArrayBlockingQueue<Runnable>(consumerCount);
        RejectedExecutionHandler rejectedExecutionHandler = new ThreadPoolExecutor.CallerRunsPolicy();
        ThreadFactory namedThreadFactory = new ThreadFactoryBuilder().setNameFormat("kafka-consumer-%d").build();
        threadPool = new ThreadPoolExecutor(consumerCount, consumerCount, 0L, TimeUnit.MILLISECONDS,
                workingQueue, namedThreadFactory, rejectedExecutionHandler);
    }

    public void handleMsg(ConsumerRecord<?, String> record) {
        threadPool.execute(new ThreadPoolTask(recorde));
    }

2. 问题分析

使用Arthas工具分析一下堆栈，如下图，可以看到每个线程都在TIMED_WAITING的等待状态，CPU消耗也很低，初步判断消费堆积并不是因为线程数量不够，而是卡在IO。

在这里插入图片描述

查看线程状态也可以看到线程池中每个线程都在等待，卡在方法dosent上面，有可能是CKafka集群限流。

3 尝试解决

3.1 增大消息解析分发线程池队列长度

上面代码2中可以看到线程池队列长度是和线程数保持一致，因为线程池的策略是线程数达到队列最大时就由主线程去执行线程作业，从而导致主线程没有继续拉取数据，其他线程执行完成之后没有数据就如上图所示等待主线程完成作业后再去拉取数据。

增大了线程池队列长度之后，发现线程状态还是变化不大，也还是一直在等待主线程。

3.2 线程任务调优

方法一效果并不是很明显，我们可以换一个思路。在代码1中每条消息都会有一个线程去执行任务，因为消息较多，每个消息一个线程会有点效率低下，可以尝试将一批数据放入一个线程，提高线程的CPU利用率，从而解决问题。

    public void handleMsg(List<ConsumerRecord<?, String>> records) {
        threadPool.execute(new ThreadPoolTask(records));
    }

修改完成后发现线程CPU利用率上升明显。

3.3 CKafka Producer 参数修改

同时重新查看Arthas里面每个线程的状态，线程卡在kafkaTemplate里面的dosent方法，再往上是awiat

在这里插入图片描述

查看await方法源码，发现其实是在等待batchSize。因为压测时batchSize设置得比较大，在正式环境中数据量没达到压测大数据量，但是因为这个方法一直在等待batchSize填充完成，所以才导致线程一直在等待没有发送Kafka消息，卡在dosent上面。

在这里插入图片描述

PS: 还有一个LingerMs参数控制发送，batchSIze与lingerMs时间哪一个先达到则就发送。LingerMs的默认时间是1分钟。结果与总结

腾讯云监控还是起了很大作用，在调优过程有很大参考意义，Ckafka或者组件都需要进行适当的参数调整才能发挥最大作用

效果还是比较明显可以看到机器CPU负载提高显著，未消费的Kafka消息也慢慢降低，达到预期。

本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：云+社区版权协议及知识产权说明 下一篇：BattlEye堆栈行走(3)

随机推荐

超搞笑说说：像你这么优雅的人，平时都不

1．世界上最悲哀的事莫过于睡眠不足，尤其是在感冒的时候。 2．我是一个很有原则...
好笑的QQ说说：你脑袋装的全都是屎么？我

1．我手机掉进厕所了怎么办？是屎在给我发信息吗？ 2．生活就像新闻联播，不是换...
高德技术开放日活动预告 | 聊聊技术与成

?又到一年毕业季，即将开启（实习及正式）职场生涯的同学们会有不少疑惑。比如，...
“年味”大数据，告诉你就地过年如何年味

年味到底是什么?不同的时代，人们迎接春节的方式也在变换。在70后的眼里，年味...
如何选择最适合你的数据目录

数据目录已成为企业数据管理策略的重要组成部分，但选择合适的数据目录并不是简...
教你如何在 Linux 中锁定和解锁多个用户

我们将创建以下三个Shell脚本来锁定和解锁多个帐户和查看账号状态。创建锁定用...
阿里云原生多模数据库Lindorm联合东软云

作者许力阿里云原生多模数据库Lindorm与东软云科技推出联合解决方案共建面向...
大数据无处不在，向左还是向右

新冠肺炎疫情的全球大流行不仅深刻影响了世界政治经济格局的发展演进，而且加速...
春色满园关不住，带你体验阿里云 Knative

Knative 是基于 Kubernetes 的开源 Serverless 应用编排框架。阿里云 Knative 在...
幽默的QQ心情：要不是打不过你，早就跟你

1．男女之间是真的可以有纯友谊的，只要一个打死不说一个装傻到底。 2．不要迷恋...

【玩转腾讯云】调优笔记：记录CKafka消费堆积服务CPU未跑满

1. 背景

2. 问题分析

3 尝试解决

3.1 增大消息解析分发线程池队列长度

3.2 线程任务调优

3.3 CKafka Producer 参数修改

推荐图文

Flink集成Iceberg在同程艺龙的实践

云原生技术及其未来发展趋势展望

云迁移的实际成本

有意思的句子：考试真是so esay，哪里不会考哪里

云效走进百所高校让上千学生真正认识代码

Python效率不好？你必须知道的7大Python效率工具

随机推荐

超搞笑说说：像你这么优雅的人，平时都不

好笑的QQ说说：你脑袋装的全都是屎么？我

高德技术开放日活动预告 | 聊聊技术与成

“年味”大数据，告诉你就地过年如何年味

如何选择最适合你的数据目录

教你如何在 Linux 中锁定和解锁多个用户

阿里云原生多模数据库Lindorm联合东软云

大数据无处不在，向左还是向右

春色满园关不住，带你体验阿里云 Knative

幽默的QQ心情：要不是打不过你，早就跟你

关于我们

【玩转腾讯云】调优笔记：记录CKafka消费堆积 服务CPU未跑满

1. 背景

2. 问题分析

3 尝试解决

3.1 增大消息解析分发线程池队列长度

3.2 线程任务调优

3.3 CKafka Producer 参数修改

推荐图文

随机推荐

关于我们

【玩转腾讯云】调优笔记：记录CKafka消费堆积服务CPU未跑满