当前位置：主页 > 查看内容

PolarDB-X 是如何用15M内存跑1G的TPCH

发布时间：2021-07-12 00:00| 有位朋友查看

简介：在数据时代过多耗内存的大查询都有可能压垮整个集群所以其内存管理模块在整个系统中扮演着非常重要的角色。而PolarDB-X 作为一款分布式数据库其面对的数据可能从TB到GB字节不等同时又要支持TP和AP Workload 要是在计算过程中内存使用不当不仅会造成TP……

在数据时代过多耗内存的大查询都有可能压垮整个集群所以其内存管理模块在整个系统中扮演着非常重要的角色。

而PolarDB-X 作为一款分布式数据库其面对的数据可能从TB到GB字节不等同时又要支持TP和AP Workload 要是在计算过程中内存使用不当不仅会造成TP和AP相互影响严重拖慢响应时间甚至会出现内存雪崩、OOM问题导致数据库服务不可用。

CPU和MEMORY相对于网络带宽比较昂贵所以PolarDB-X 代价模型中一般不会将涉及到大量数据又比较耗内存的计算下推到存储DN DN层一般不会有比较耗内存的计算。这样还有一个好处当查询性能不给力的时候无状态的CN节点做弹性扩容代价相对于DN也低。

鉴于此所以本文主要对PolarDB-X计算层的内存管理进行分析这有助于大家有PolarDB-X有更深入的理解。

PolarDB-X内存管理机制的设计主要为了几类问题

让用户更容易控制每个查询的内存限制
预防内存使用不当导致内存溢出进而引发OOM
避免查询间由于内存争抢出现相互饿死现象
避免AP Workload使用过多内存严重拖慢TP Workload

业界解决方案

在计算层遇到的内存问题业界其他产品也会遇到。这里我们先看下业界对此类问题是如何解决的。

PostgreSQL

为了面对内存问题 PG的内存管理有两大特点:

内存按照一定的比例分为四大区域(Shared Buffers、Temp Buffers、Work Mem、Maintenance Work Mem)
在查询过程算子主要使用Work Mem区域内存且每个算子都是预先分配固定内存的但内存不够时需要与硬盘进行swap

所以PG在生产中要求业务方合理配置内存比例配置不当的话会极大的降低系统的性能。

一般有两种方式去指导业务方配置估计方法与计算方法。

第一种是可以根据业务量的大小和类型一般语句运行时间来粗略的估计一下。第二种方式是通过对数据库的监控数据采集然后计算其大小。

Flink

接下来我们看看作为大数据库实时领域非常流行的计算引擎Flink 他的内存管理特点是

引入了一套基于字节流的数据结构在JVM虚拟机上实现了类似C申请和释放内存的池化管理
内存主要分为三块: 网络内存池、系统预留的内存池、计算内存池。
为每个算子设置一个[min-memory, max-meory]?调度上可以保证每个算子初始化的时候预先分配min memory 在计算过程中不断从计算内存池申请内存当申请失败或者内存使用超过算子预先定义max memory的时候主动触发数据落盘。

Flink相对于PG来说在计算过程中引入了动态管理机制但这种机制是有限的。主要应该有两点考虑:?

整个计算是动态的其实是很难权衡哪个算子抢占权重高如果任意放开肯定会影响性能
Flink是流水线计算模型类似PartialAgg算子一定不落盘所以一旦PartialAgg占用过多内存导致下游没有内存可用而PartialAgg又一定会往下游发送数据这样必然会导致Dead Lock。

Spark

说到计算层的内存管理就不得不提SPARK。SPARK早在2015年就提出了Project Tungsten。

当然钨丝计划的提出主要是为了不要让硬件成为Spark性能的瓶颈无限充分利用硬件资源。而其中内存管理的设计不仅仅可以减少JVM内存释放的开销和垃圾回收的压力结合落盘能力可以支持海量数据的查询。

Spark 内存管理和Flink很像的这里就不展开来说。但是它支持完全动态内存抢占这种动态内存抢占主要体现在 Excution和Storage内存可以相互强制 Task间可以相互抢占 Task内部可以相互抢占。Spark这里假设了每个Task动态抢占内存的能力相当于理论值都是1/N (N表示进程内部Task数量)。

Spark其实是可以这么假设的他是典型的MR模型只有Map端计算完后才调度Reduce端所有在一个进程内部多个Task你可以简单认为都是Map Task。当某个Task使用的内存不足1/2N时它会等到其他Task释放内存。而Task间最多可以抢占的阈值也是1/N 而Task内算子是可以完全相互动态抢占的。

Spark的计算模型决定了他可以做到不预先为每个Task和算子预先分配内存随着N的变化动态调整每个Task的抢占能力。个人觉得这种动态抢占内存的方案相对于其他计算引擎优越不少。但是由于Spark主要是针对大数据的ETL场景稳定性至关重要尽量避免任务重试。所以对每个Task抢占的上界都做了约束(Task Memory 1/N * Executor Memory) 确保每个Task都有内存执行任务。

Presto

Presto是由 Facebook 推出的一个基于Java开发的开源分布式SQL查询引擎。它的特点是:

采用的是逻辑内存池来管理不同类型的内存需求。
Presto整体将内存分为三块: System Pool、Reserved Pool、General Pool。
Presto内存申请其实是不预分配的且抢占是完全随机的理论上不设定Task抢占的上限但为了出现某个大查询把内存耗尽的现象所以后台会有定时轮训的机制定时轮训和汇总Task使用内存限制Query使用的最大内存同时当内存不够用的时候会对接下来提交的查询做限流确保系统能够平稳运行。

考虑到Presto是基于逻辑计数方式做内存管理所以是不太精准的。但逻辑计算的好处是管理内存成本比较低这又往往适合对延迟要求特别低的在线计算场景。

PolarDB-X内存管理

业界基本上都会将内存分区域管理针对于计算层主要区别在于: 内存是否预分配和查询过程中是否支持动态抢占。而PolarDB-X 是存储计算分离的架构 CN节点是无状态的且主要针对于HTAP场景所以对实时性要求比较高。

能否充分使用内存对我们的场景比较关键。所以我们采取类似Presto这种无预分配内存且支持动态抢占内存方案。除此之外我们会根据不同的WorkLoad来管理内存充分满足HTAP场景。

统一的内存模型

PolarDB-X内存也是分区域管理。结合自身的计算特点按照不同的维度会有不同的划分和使用方式。

结合HTAP特性我们将内存池划分为
System Memory Pool 系统预留的内存主要用于分片元数据和数据结构、临时对象;
Cache Memory Pool 用于管理Plan Cache和其他LRU Cache的内存
AP Memory Pool: 用于管理WorkLoad是AP的内存;
TP Memory Pool: 用于管理WorkLoad是TP的内存;

相对于业界其他产品来说我们主要划分出了AP和TP的内存区域。这么做是为了做TP/AP Workload在内存使用上的资源隔离。

结合我们的计算层次结构我们按照树形结构去管理内存:

一个TP Workload的查询我们会从TP Memory 申请出Query Memory 然后按照我们的计算层次关系又会划分出Task/Pipeline/Driver/Operator Memory。

这样的好处是我们可以动态监测不同维度下的内存使用情况。这里唯一要注意的是在Query Memory下我们额外会创建一个Planner Memory 用于管理查询时和DN交互的数据对象的内存。

结合算子对内存申请和释放的行为我们对一个Operator Memory划分为两个内存块: Reserve和Revoke。

Reserve Memory顾名思义就是算子一旦申请了内存就一定不会被动释放直到该算子运行结束主动释放内存比如Scan算子主要和DN交互数据的一般都采样流式实现每次运行都从DN获取一批数据然后发送给下游该算子一般不支持数据落盘所以Scan算子都是申请Reseve Memory。

而Revoke Memory表示算子申请内存后可以通过触发数据落盘的方式被动释放将申请到的Revoke Memory归还到内存池以供其他算子使用。比如HashAgg算子都是申请Revoke Memory 但它申请的内存过多导致这个查询其他算子无内存可用就会被框架触发HashAgg数据落盘将其申请的内存统统归还给内存池。

这里需要注意PolarDB-X对于Reserve和Revoke两块内存并没有按比例严格划分这两者是可以完全相互抢占的。

内存对象

对于内存管理上比较重要的实现类就是Memory Pool和MemoryAllocatorCtx。其中Memory Pool提供了申请和释放内存的API。

考虑到内存是按树形结构管理起来的申请一次内存会涉及到多次函数调用所以这里封装了MemoryAllocatorCtx对象用于确保每次申请/释放内存的最小单位是512Kb 避免对MemoryPool相关函数多次调用的开销。且MemoryAllocatorCtx对象会记录上一次内存申请失败的大小是框架用于判断内存是否不够用的重要标志。

interface?MemoryPool?{//申请reserve 内存ListenableFuture ? allocateReserveMemory(long size);//尝试着申请reserve 内存boolean tryAllocateReserveMemory(long size, ListenableFuture ? allocFuture);//申请revoke 内存ListenableFuture ? allocateRevocableMemory(long size);//释放reserve 内存void freeReserveMemory(long size);//释放revoke 内存void freeRevocableMemory(long size);}

在内存的使用上我们采样的是非预分配模型在计算调度上不需要额外考虑每个算子的使用内存。每个算子都是在执行期间按需去申请释放内存的但这并不是意味着算子就可以任意去申请内存。

一旦所有的算子使用内存之和超过查询规定的最大内存或者内存不够用的时候我们都会阻塞当前查询为此我们在原有的MemoryPool基础之上派生出了BlockingMemory 同样的为了方便AP和TP Workload基于内存做自适应的资源隔离我们进一步派生出了AdaptiveMemory。

BlockingMemory 内存申请过中会根据内存是否超过一定的阈值创建阻塞对象该对象会被执行线程引用。一般来说全局内存或者Query内存超过一定的阈值(0.8)的时候就会触发当前算子申请内存失败并且主动退出执行这个和Spark算子申请不到内存后阻塞当前线程的行为是不一致的。

AdaptiveMemory 用于做TP/AP的内存管理在申请过程中会根据AP和TP的内存占比做一些自适应调整比如触发限流、query自杀、大查询落盘等操作。

动态抢占内存机制

在内存申请和释放的行为上我们采样的都是非阻塞模型这种设计可以很好的和我们的时间片执行框架结合。结合这种设计 PolarDB-X算子都是不预分配内存的各个算子都是在运行过程中完全动态抢占内存。

这钟动态抢占内存主要体现在: AP Memory 和TP Memory之间、Query Memory之间以及Operator Memory的Revoke和Reserve之间。

而实现这种抢占机制的基本单元依然是Driver 由下图可知 Driver会在运行过程中会根据当前Worload的内存空间、Query Used Memory 和 Operator Used Memory 来判断执行线程是否需要让出执行线程被内存阻塞。一旦发现内存不够用的话会主动退出执行队列加入到阻塞队列直到内存空间满足一定的条件才会唤醒该Driver。

Driver被内存阻塞主要条件是

当内存池子(AP/TP Memory Pool)内存不足阈值的0.8之时申请内存的算子会在下一刻会被暂停执行等待被触发数据落盘以到达释放内存的目的。
当前查询申请的总内存超过当前Max Query Memory阈值的0.8之后申请的算子会被暂停执行等待被被触发数据落盘以到达释放内存的目的。

当Driver被内存阻塞后 Driver会退出执行线程将线程资源拱手相让给其他Driver。同时会回调MemoryRevokeService服务该服务主要是基于内存大小和Pipeline的依赖关系挑选出耗内存的Driver进行标记。

当内存不够时 CN会基于Used Memory Size对Task做排序依次对占用大内存的Task打标记 Taks内部则基于依赖关系对Pipeline做排序依次对父节点的Pipeline打标 Pipeline内部首先基于Driver Used Memory Siz做排序后再结合Operator前后依赖关系来决定Operator的内存释放顺序。

这里唯一需要注意的是MemoryRevokeService只是对需要释放内存的Operator进行打标记然后唤醒对应的Driver 等待被调度的时候由执行线程池来触发数据落盘。

这里可能会有一个疑问为什么打标记的同时不立刻触发数据落盘释放内存呢。由于Driver被落盘标记的时候也有可能正在执行线程池执行如果这个时候触发Driver执行落盘操作的时候 Driver会有并发安全的问题。所以我们将Driver的落盘动作和执行动作都交给执行线程池统一处理。

从上图还可知一旦Driver被MemoryRevokeService唤醒就调度到执行线程池中首先做自我巡检判断当前Driver是否包含SPILL标记如果是的话就需要触发Driver上相应算子做数据落盘的动作这里唯一需要注意的是算子真正做数据落盘的逻辑是完全异步的不占用执行线程。

一旦Driver开始做异步落盘后也会主动退出执行线程直到异步落盘结束后才会唤醒当前Driver。整个过程确保了执行线程的资源不会被卡住。

基于负载的内存隔离

PolarDB-X在HTAP场景下是希望做到AP Workload不影响TP Workload。但当系统承载的都是AP Workload时 AP可以充分利用所有资源当系统承载的都是TP Worload时 TP可以充分利用所有的资源。这里头我们巧妙了利用了TP Memory的阈值来到达目的。

Driver 执行过程中按需申请内存如果内存足够会反复被调度执行
当Driver被内存阻塞时判断其Workload
如果是AP 则通过MemoryRevokeService服务触发数据落盘如果是TP Workload 则在触发数据落盘的同时会判断当前TP Memory是否超过TP Memory Pool 若不是则说明AP Workload使用内存过多则回调AP Workload做调整
回调的方式有两种触发部分AP Worload自杀且触发Ap Worload 基于令牌桶的方式做滑动限流。

其中系统触发AP Worload自杀的回调机制是比较危险的默认是关闭的。而一旦触发AP Worload限流则令牌桶流入的速率会减半这样接下来的AP workload请求可能获取不到Token 而只能排队等待。

默认我们将TP Memory Pool的值设置为内存最大可利用资源的80% 表示在没有AP查询时 TP可以使用100%资源在没有TP查询时 AP可以使用100%资源当TP和AP Worload比较高时 AP最大只能占用20%的资源。

数据测试基于15MB的内存跑通1g TPCH 这里我们截取了几个比较耗内存的Query统计了落盘文件的数量。

测试了TPCC和TPCH混跑情况下 AP 对TP的影响。这部分测试也涵盖了CPU的资源隔离后面我们会单独开一篇谈谈PolarDB-X基于负载的资源隔离技术。在不开启TPCH的情况下 tpmc保持在3.2w-3.4w之间; 再开启TPCH后 tpmc基本可以维持在3w以上且有抖动10%左右。

总结

从上表对比来看

PolarDB-X算子不预分配内存而是在计算过程中按需去申请内存可以充分提高内存利用率
支持Workload/Query/Operator维度的内存动态抢占比较适合HTAP场景可以通过设置不同维度的阈值尽可能确保在内存上TP Workload不受AP的干扰
相对于PostgreSQL/Flink/Spark来 PolarDB-X释放内存的时机是Lazy的。就是说当算子内存不够的时候算子并不是立即落盘释放内存的而是退出执行线程由另外一个服务计算出更加耗内存的算子这种方案可以挑选更加耗内存的查询或者算子做数据落盘避免对小查询造成影响。但Lazy的方式存在一定的风险可能在一瞬间内存未及时释放而运行的查询申请内存过多导致OOM 但好在PolarDB-X是计算存储分离的架构计算层是无状态的
PolarDB-X 相对于Presto 动态内存抢占的粒度更加细将Workload也纳入考虑。但Presto在实现的细节上会考虑大查询间内存的相互影响。而在HTAP场景下我们更加注重AP对TP的影响 AP内查询间并没有额外的机制去保证内存不受影响。

从业界产品来看每个产品在内存管理上都有各自的特点这和产品本身的定位是有一定关系。而PolarDB-X作为一款计算存储分离的HTAP数据库来说其计算层目前采用的完全动态内存抢占方案可以做到充分使用内存避免AP对TP的影响。

欢迎大家对我们持续关注

本文转自网络，原文链接：https://developer.aliyun.com/article/785217
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：可靠的远程代码执行(2) 下一篇：阿里云数据管理服务DMS通过信通院“数据脱敏工具基础能力”专项

随机推荐

星环科技TDS 为数据全生命周期管理提供一

2021年3月24日，主题为《数据的世界，世界的数据》的星环科技2021春季新品发布会...
步骤一：基础配置_弹性云服务器 ECS_快速

前提条件请您在购买前确保已完成注册和充值。详细操作请参见如何注册公有云管...
实时数仓入门训练营：Hologres 数据导入/

本文整理自直播《Hologres 数据导入/导出实践-王华峰(继儒)》视频链接: https:/...
就凭这3点，可以完全理解Python的类方法

在Python语言中有如下3种方法：成员方法类方法(classmethod) 静态方法(staticm...
关于 Node.js 中的异步迭代器

从 10.0.0 版开始，异步迭代器就出现在 Node 中了，在本文中，我们将讨论异步迭...
用于数据可视化的9款主流分析工具！

【51CTO.com快译】数据可视化工具不断发展，提供更强大的功能，同时改善可访问...
建站什么虚拟主机够用

建站什么虚拟主机够用？这要看搭建的是什么类型的网站。比如个人博客类型的网...
数据为先，“1+N”模式推动智慧教育创新

信息化2.0时代提出开展智慧教育创新发展行动。2019年2月，中共中央、国务院印发...
Docker生成新镜像版本的两种方式

Docker生成新镜像版本的两种方式 There are two ways Docker can generate new m...
高并发服务遇redis瓶颈引发time-wait事故

摘要元旦期间订单业务线告知推送系统无法正常收发消息，作为推送系统维护者...

PolarDB-X 是如何用15M内存跑1G的TPCH

推荐图文

2021 的 Node.js 开发人员路线图

新疆喀什疫情｜疫情之下：大数据的洞察力

阿里云CDN/DCDN加速安全助力企业出海，原生防护延伸

数据科学50年，数据科学家是否依然是21世纪最性感的

详解LongAdder实现原理

达摩院重要科技突破！空天数据库引擎Ganos解读

随机推荐

星环科技TDS 为数据全生命周期管理提供一

步骤一：基础配置_弹性云服务器 ECS_快速

实时数仓入门训练营：Hologres 数据导入/

就凭这3点，可以完全理解Python的类方法

关于 Node.js 中的异步迭代器

用于数据可视化的9款主流分析工具！

建站什么虚拟主机够用

数据为先，“1+N”模式推动智慧教育创新

Docker生成新镜像版本的两种方式

高并发服务遇redis瓶颈引发time-wait事故

关于我们