当前位置：主页 > 查看内容

【巡检问题分析与最佳实践】PolarDB MySQL CPU高问题

发布时间：2021-04-15 00:00| 有位朋友查看

简介：往期分享RDS MySQL RDS MySQL 实例空间问题 RDS MySQL 内存使用问题 RDS MySQL 活跃线程数高问题 RDS MySQL 慢SQL问题 RDS MySQL 实例IO高问题 RDS MySQL 小版本升级最佳实践 RDS PostgreSQL RDS PostgreSQL 实例IO高问题 RDS PostgreSQL 慢SQL问题 RDS Post……

往期分享RDS MySQL

RDS PostgreSQL

RDS PostgreSQL 实例IO高问题

RDS PostgreSQL 慢SQL问题

RDS PostgreSQL CPU高问题

RDS SQL Server

RDS SQL Server 磁盘IO吞吐高问题

RDS SQL Server CPU高问题

RDS SQL Server 空间使用问题

Redis

MongoDB

概述

CPU做为数据库资源最核心的资源是日常最重点需要关注的指标 CPU用满会导致应用RT增高、业务卡顿更严重会导致数据库实例hang死发生ha等问题严重影响日常生产业务。

一般对于CPU的监控需要设定安全水位超出安全水位要及时处理否则会引发不可预期的严重后果。

真实业务CPU使用

随着业务增长在数据库上线之初采购的数据库实例规格可能已经跟不上业务流量的上涨此时由于流量增长数据库的使用逐渐在加重此类的CPU上涨是随着业务逐渐升高的如果从性能曲线观察必有某一指标是上涨趋势和CPU曲线上涨曲线拟合如qps/iops等等图例图中cpu使用率不高只做为趋势表示可以看到qps和cpu曲线表现基本一致

此时如果CPU出现瓶颈基本可以认为是实例资源上限已不足以支持业务流量此时最好对实例进行节点或者规格扩容。

1.大量业务都是读请求可以通过增加只读节点进行集群横向扩容以分流读流量

2.大量业务都是写请求此时对ro节点进行扩容不会对性能起到提升作用需要对规格进行扩容变更如由4C规格变更为8C规格

非预期内CPU增长

导致CPU非预期增长的情况比较复杂此文暂列几种常见的问题随着生产环境中不断发现会对本文进行补充。

慢查询导致

一般来说 CPU增长有很大部分原因是由于SQL语句不合理产生慢查询同时产生活跃线程堆积导致CPU打高但是一定要区分真实慢查询和其他原因导致的慢查询换句话说是因为慢查询导致CPU高或者是由于其他资源打满导致查询变慢。

在控制台的慢查询分析中可以看到慢查询情况

如果慢查询中有内容就需要对慢查询进行分析如果是慢查询导致CPU资源用尽有一个比较明显的特性就是读取返回比非常高

简单理解就是扫描行远远大于返回行数注意此处要排除掉count类查询有可能一些AP类查询的确扫描行数很大此处先针对TP类查询进行分析。

TP类业务基本都是读写非常小量的数据量如果此类查询的扫描数据量非常大那么大概率原因是由于索引缺失导致例如

select * from tb1 where name testname ;

例如此查询在慢查询列表中显示扫描数据量1万返回数据一条那么很明显在name列上有索引缺失的情况可以通过

show index from tb1;

确认在name列上有索引如果没有可以添加索引列

alter table tb1 add key ix_name (name);

消除此类大数据量扫描导致的慢查询。

如果发现name列上有索引此时可以通过

explain select * from tb1 where name testname ;

查看语句的执行计划确认是否使用的正确的索引假如发现name列存在索引但是并没有使用有可能出现了统计信息不准确导致生成了错误的执行计划可以通过

analyze table tb1

重新生成表上的统计信息用以纠正错误计划执行完成后再进行explain确认是否使用的正确的索引。

索引相关知识比较复杂请自行搜索相关资料进行学习。

活跃进程高

活跃进程高一定会带来CPU使用的增长,抽象的说 MySQL实现中每一个CPU只能在同一时间处理一个请求也就是说假设是16C规格的实例最多只能同时处理16个请求但是一定要注意这个请求是指的内核层面而非应用的并发层面。

如果排除掉慢查询导致的请求无法正常消化活跃进程堆积一般都是由于真实业务流量增长带来的如果查看曲线整体流量以及请求趋势都是和活跃进程的堆积趋势一致那代表实例规格已经到达峰值此时一般都要通过实例扩容解决请参考[真实业务CPU使用] 部分进行节点或者规格扩容。

但要注意在活跃进程达到临界点时可能在CPU层面开始产生争抢内核中产生大量的mutex 排他锁此时曲线一般表现特征为高CPU 高活跃进程低IO或低qps。

还有一种情况是突然的业务洪峰建立连接速度非常快也可能导致大量争抢导致请求堆积。

此类问题一般可以通过开启实例thread_pool特性进行流控缓解需要在实例的参数设置中打开 thread_pool_enabled选项基本可以对此类问题有所缓解。

但是要注意如果活跃进程有所缓解同时还要注意应用侧是否已经产生了业务堆积如果CPU负载较高同时活跃进程依然高居不下此时则同样要考虑是不是对实例进行扩容操作。

另有一种情况是前端连接风暴导致实例流量瞬间堆积此时流量属于异常流量一般可能出现数据被爬虫拉取数据的场景下此时可以通过sql限流的方式进行请求拒绝通过一键诊断- 会话管理入口进行自助sql限流操作

内核配置不合理

云上RDS参数是通用场景下的标准配置对于各别业务可能不太适用需要进行详细微调有些问题在上线初期数据量少的情况下不会触发但是随着时间推移数据量增大会在特定条件下触发。

比较常见的问题会出现在内存使用争抢在MySQL体系中内存很大部分是做为数据缓存也就意味着数据需要不断的迭代最常用的两块内存是Buffer Pool和innodb_adaptive_hash_index 两块内存区域。整个数据库系统的缓存区域是数据交换最为频繁的位置如果内存不足和内存页争抢则会出现各种异常的堆积和慢查询最典型的表现是数据库突然CPU上涨打满并且出现慢查询排查后可以确认并非索引缺失这种情况下就有可能是内存系统发生了问题。

例如在进行truncate table操作时 MySQL要遍历Buffer pool将truncate 表的数据页全部驱逐此时如果大规格的实例 innodb_buffer_pool_instances配置为1并且并发相对较高的情况下就有可能出现争抢问题。

这个问题在业务上线初期就可以发现一般来说可以将innodb_buffer_pool_instances的值配置与CPU core数量对齐将Buffer Pool进行分桶就可以规避此类问题。

另外还有一种情况是innodb_adaptive_hash_index出现争抢比较明显的表现是执行

show engine innodb status;

时会出现大量的 hash0hash.cc 等待在 AHI显示段中会出现明显的数据倾斜如图

此类问题可以将innodb_adaptive_hash_index参数关闭也就是直接弃用AHI特性已有数据表明在混合读写的场景下AHI也有可能带来负面的性能影响关闭后对整体业务的影响不是很大。

BUG

BUG是相对少见的问题例如比较早的进程死锁、表上统计信息置0导致全表扫描等等但是随着产品的快速迭代 BUG导致的CPU问题相对不多但是由于排查涉及更多内核层面信息客户自助处理可能有一定难度在以上手段调整后还是出现CPU问题请工单与阿里云进行联系进行排查。

本文转自网络，原文链接：https://developer.aliyun.com/article/783571
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：轻松搞定 Nginx 配置代码的神器！ 下一篇：IBM Cloud Pak for Automation 助力新奥集团迈向超自动化

随机推荐

天津智慧物联赛道明星班再集结丨深度链接

创业与投资的本质，都是追寻一种能够穿越时空，抵达未来的高效方式。德勤管理咨...
深度 | 跨平台Web Canvas渲染引擎架构的

作者 | 楚奕来源 | 阿里技术公众号这篇文章主要从技术视角介绍下跨平台WebCanv...
腾讯2020年财报：腾讯云自研战略提速，星

3月24日，腾讯发布2020年Q4及全年财报，其中金融科技及企业服务第四季收入385亿...
C#多线程处理多个队列数据的方法

本文转载自微信公众号「后端Q」，作者conan。转载本文请联系后端Q公众号。概述 ...
财税行业 | 电子税务局

基于阿里巴巴的互联网架构、大数据技术，利用混合云架构打造全新的云化电子税务...
自从用了这个神器，我再也不想写代码了..

背景有时候我会碰到快速搭建测试服务的需求，比如像这样：搭建一个 HTTP Servi...
校园搞笑说说：老师你不用费心给我换同桌

1．百度是个大骗子，我抄了十几年的满分作文却从未得过满分。 2．学神在刷难题，...
有意思的句子：考试真是so esay，哪里不

1．在报名的路上，我看见远处的学校，轰！的一声没了。希望如此。 2．男：我一直...
爆笑QQ说说：据说，试卷发下来一定要先吻

1．某女生寝室门口贴着一个告示男生与饭盒不得入内，问何解？答曰两者都会搞大女...
微服务流控防护场景与应对措施

前言微服务成了互联网架构的标配模式，对微服务之间的调用的流量治理和管控就尤...

【巡检问题分析与最佳实践】PolarDB MySQL CPU高问题

推荐图文

死磕36个JS手写题，搞懂后提升真的大

用JavaScript实现队列

SpringMVC 源码分析之 FrameworkServlet

如何面对繁杂的数据需求？

大数据平台架构及主流技术栈

业界 | 数据库大数据一体化加速企业数智化创新

随机推荐

天津智慧物联赛道明星班再集结丨深度链接

深度 | 跨平台Web Canvas渲染引擎架构的

腾讯2020年财报：腾讯云自研战略提速，星

C#多线程处理多个队列数据的方法

财税行业 | 电子税务局

自从用了这个神器，我再也不想写代码了..

校园搞笑说说：老师你不用费心给我换同桌

有意思的句子：考试真是so esay，哪里不

爆笑QQ说说：据说，试卷发下来一定要先吻

微服务流控防护场景与应对措施

关于我们