当前位置：主页 > 查看内容

数据库存储引擎创新：PolarDB X-Engine历史库产品

发布时间：2021-04-22 00:00| 有位朋友查看

简介：撰稿 PolarDB新型存储引擎团队历史数据归档的问题大部分业务数据的读写特征都是最新产生的数据会更频繁地被读取或者更新而更久之前的数据如1年之前的聊天记录或者订单信息则很少会被访问而随着业务运行时间的增加数据库系统中会沉淀大量很少甚至不……

撰稿 PolarDB新型存储引擎团队

历史数据归档的问题

大部分业务数据的读写特征都是最新产生的数据会更频繁地被读取或者更新而更久之前的数据如1年之前的聊天记录或者订单信息则很少会被访问而随着业务运行时间的增加数据库系统中会沉淀大量很少甚至不会被访问到的数据这部分数据和最新产生的数据混合在一起会产生一系列问题

历史数据和最新的数据存储在一个数据数据库系统中导致磁盘空间不足。
大量数据共享数据库内存缓存空间磁盘IOPS等导致性能问题。
数据量太大导致数据备份时间过长甚至失败而且备份出来的数据存放也是一个问题。

针对此问题一种做法是对历史数据做归档将长期不使用的数据迁移至以文件形式存储的廉价存储设备上比如阿里云OSS或者阿里云数据库DBS服务。然而实际业务系统中历史数据并不完全是静态的针对几个月甚至几年前的“旧”数据依旧存在实时的、低频的查询甚至更新需求在阿里巴巴内部类似淘宝/天猫的历史订单查询企业级办公软件钉钉几年前的聊天信息查询菜鸟海量物流的历史物流订单详情等。为了解决历史数据的读取和更新问题可以使用一个单独的数据库系统作为归档数据的存储目的地称之为历史库。业务对单独的历史库系统一般具有如下的诉求

具有非常巨大的容量业务可以放心持续将线上数据保存到历史库中而不用担心容量问题。
支持和在线数据库系统一样的访问接口如都是MySQL协议等业务可以和在线业务相同的接口访问历史库。
必须具有低廉的成本如使用压缩减少数据所占磁盘空间廉价存储介质等确保可以使用较大的代价保存海量的数据。
具备一定的读写能力满足低频的读写需求。

作为世界上使用最广泛的开源数据库系统 MySQL生态中一直缺乏一个好用的历史数据归档存储方案既满足大容量低成本同时又具备一定的读写能力。虽然业界曾经推出过一些高压缩引擎如TokuDB MyRocks等但是受限于单物理机磁盘容量限制存储的数据量有限。PolarDB历史库的推出即为满足这一需求。

PolarDB历史库产品

阿里云数据库团队将公司内部广泛使用的高压缩引擎X-Engine引擎与PolarDB相结合使得PolarDB同时支持InnoDB引擎和X-Engine引擎其中InnoDB引擎负责在线业务的高性能混合读写 X-Engine引擎负责归档数据的低频读写。

在PolarDB双引擎的架构上我们推出了一款主要基于X-Engine引擎存储的数据库产品 PolarDB历史库。历史库单实例的存储空间上限为200TB 结合X-Engine引擎3~5倍的压缩能力可提供近600TB~1PB的原始数据存储能力能满足绝大部分客户的历史数据归档对存储容量的需求。

使用PolarDB 历史库(X-Engine)具有如下几个优势

超大的容量 200TB的存储空间加上X-Engine数据压缩能力可提供超500TB以上的原始数据存储容量同时容量按需付费不用预先为未来的数据增长预备存储空间。
PolarDB历史库与官方MySQL的协议一致相比于将历史数据备份到HBase等NoSQL产品业务应用程序不用修改代码即可同时访问在线库和历史库。
借助PolarDB底层共享存储提供的快速备份能力再大的实例也可以实现对数据的快速备份备份数据上传到OSS等廉价存储设备确保数据永不丢失。

由于PolarDB 历史库提供了超大存储容量它可以同时作为多个业务历史数据的汇聚地以方便对所有历史数据进行集中存储和管理用户可以在如下几个场景中使用历史库

将PolarDB 历史库作为线下自建数据库实例的冷数据存储地线下自建数据库服务包括且不限于MySQL/Postgre/Sql Server等关系数据库。
将PolarDB历史库作为阿里云RDS MySQL或者PolarDB MySQL数据库服务的归档存储地将较少访问到的历史数据迁移到PolarDB X-Engine中存储释放在线实例的空间以降低成本并提升性能。
直接将PolarDB 历史库作为大容量关系数据库使用以满足一些写入数据量巨大但读频次较低的业务的需求如系统监控日志等)。

在线库和历史库之间的数据迁移可以使用阿里云DTS或者DMS进行其中DTS可以持续将在线库的内容同步到历史库而DMS则可以周期性的将在线数据批量导入到历史库。

PolarDB历史库技术架构

PolarDB历史库功能的推出依赖阿里巴巴数据团队之前在数据库和存储等方向上的创新和突破

阿里巴巴自研的基于LSM-tree架构的存储引擎X-Engine提供了强大的数据压缩能力满足了归档数据库对低存储成本的要求。
PolarDB借助于共享分布式存储服务实现了存储容量在线平滑扩容同时计算节点和存储节点之间采用高速网络互联并通过RDMA协议进行数据传输使I/O性能不再成为瓶颈。集成到PolarDB的X-Engine引擎同样获得了这些技术优势。下面我们分别讲解X-Engine引擎的基础特点以及如何将X-Engine与PolarDB相结合以提供一个有竞争力的历史库技术方案。

X-Engine存储引擎

PolarDB历史库通过引入X-Engine获得存储空间节省的优势 X-Engine引擎可以用如下几个关键点对其进行描述

X-Engine使用了LSM-Tree的分层架构最近写入的热点数据和历史写入冷数据分开索引同时创新性的使用事务流水线技术把事务处理的几个阶段并行起来极大提升了写入吞吐。
分层存储底层的数据是大部分时候为静态只读在数据页中所有记录采用前缀编码同时每个数据页中的数据都是紧凑排列不会留空洞最后底层数据都会默认进行压缩因此相比原始数据可获得数倍的空间压缩。
X-Engine对传统LSM-tree性能影响比较大的Compaction过程做了大量优化如拆分数据存储粒度利用数据更新热点较为集中的特征尽可能在合并过程中复用数据。精细化控制LSM的形状减少I/O和计算代价有效缓解了合并过程中的空间增大。X-Engine本身的实现非常复杂远非几句话可描述本篇不对其展开详细讲述。

X-Engine在阿里巴巴集团内部就作为一个自研引擎集成到AliSQL之中也集成到公有云RDS MySQL当中作为归档引擎售卖而现在我们将其集成到了PolarDB当中。

融合InnoDB/X-Engine引擎

PolarDB的最初版本是基于InnoDB引擎设计的其技术架构可以参见文章PolareDB产品架构在InnoDB引擎上实现物理复制并在此基础上支持一写多读已经非常具有技术挑战。X-Engine是一个完整独立的事务引擎具有独立的REDO日志磁盘数据管理缓存管理事务并发控制等模块将X-Engine移植进PolarDB并实现双引擎的一写多读更具挑战。我们通过大量的工程创新将PolarDB带入双引擎时代

合并X-Engine的事务WAL日志流和InnoDB的REDO日志流实现了一套日志流和传输通道同时服务于InnoDB引擎和X-Engine引擎管控逻辑以及与共享存储的交互逻辑无需做任何改变同时未来新增其他引擎时也可以复用发这套架构。
将X-Engine的IO模块对接到PolarDB InnoDB所使用的用户态文件系统PFS上如此实现InnoDB与X-Engine共享同一个分布式块设备. 同时依靠底层分布式存储实现了快速备份。
在X-Engine中实现了基于WAL日志的物理复制功能并且一步到位的引入并行WAL回放机制实现了RW节点与RO节点之间毫秒级别的复制延迟。在此基础之上我们实现了在RO上提供支持事务一致性读的能力。

除了涉及到X-Engine支持一写多读需要支持的功能改造之外 PolarDB X-Engine还有很多项工程改进如针对历史库场景大表DDL的问题除了部分支持instant DDL的schema变更操作 X-Engine也支持并行DDL功能对那些需要copy表的DDL操作进行加速。

在PolarDB双引擎架构下我们实现了在一套代码下支持两个事务引擎的一写多读保证了PolarDB产品架构的简洁和一致用户体验。

PolarDB X-Engine普惠版

PolarDB集群版基于共享存储实现了一写多读集群中有一个主节点可读可写和至少一个只读节点但是在历史库场景下用户一般需要巨大的存储容量但由于读写量较小 RW节点的计算资源都无法利用完更无须RO节点提供的读扩展能力。在RW和RO规格相同时相当于浪费了一半的计算资源。

借助X-Engine引擎带来的数据压缩能力可以降低客户的存储成本而在历史库当中我们使用单RW节点来提供服务省去了RO节点的计算资源成本。当然去除了RO节点在灾难场景如RW节点异常Crash时需要更长的崩溃恢复时间。但是依靠底层分布式存储提供的高可用能力我们依然提供了99.95%的可用性。

在历史库这样一个低频读写的场景很多时候数据为异步批量导入到历史库用稍低一点的可用性换取成本节省对很多用户是可以接受的。而对于那些对可用性要求比较高的客户我们也即将在PolarDB集群版本中提供X-Engine引擎在降低存储成本的同时提供与标准版一样的可用性指标。

历史库单节点架构下日常不提供RO节点在需要对节点进行运维操作如进行节点升级需要重启时通过部署临时的RO节点并升级为RW节点的方式可以降低升级操作对客户读写的影响。

单节点时节点替换流程如上图所示影响业务的时间为替换过程中HA将流量从原RW切换到新的RW的瞬间。

PolarDB?X-Engine的性能

在PolarDB内核多年的技术积累以及PolarStore提供的极致性能基础上 PolarDB X-Engine在提供极低存储成本的同时也保证了足够的性能满足业务的诉求。下面我们展示PolarDB 历史库的性能数据。

PolarDB X-Engine各规格的纯写性能

PolarDB X-Engine各规格的只读性能

PolarDB X-Engine混合读写性能

本文转自网络，原文链接：https://developer.aliyun.com/article/783717
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：知识太枯燥？带你趣味学！云开发技术图谱首发上线，开启探索之旅 下一篇：直播预告 | Tair(Redis)行业场景深度刨析-安全风控详解

随机推荐

5分钟快速掌握Adam优化算法

梯度下降是一种优化算法，遵循目标函数的负梯度以定位函数的最小值。梯度下降的...
123

456...
自动获取vlookup函数的第三参数，再也不

对于vlookup函数，很多人都有会这样的想法：vlookup函数的第三参数为什么就不能...
点燃激情！6个充满想象力的前端编码创意

本文转载自公众号读芯术(ID：AI_Discovery)。要想掌握编程，大量练习是不可或缺...
小结：金融云的2020

【51CTO.com原创稿件】去年年底，国际数据公司（IDC）发布的《中国金融云市场（2...
大数据透露春节消费新趋势

今年春节黄金周期间，全国零售和餐饮企业销售额首次突破万亿元，根据电商大数据...
[ Security ] WEB安全(二)之图解 CSRF 注

CSRF 攻击的原理 CSRF 攻击，英文全称就是 Cross Site Request Forgy，意思就是...
Flink CDC 原理、实践和优化

CDC 是什么 CDC 是变更数据捕获（Change Data Capture）技术的缩写，它可以将源...
2021年云计算趋势预测畅想

如今云计算是全球应对新冠疫情危机的核心技术。的确，几大领先的公有云提供商在2...
阿里云与西奥电梯达成深度合作推出可信

阿里云与西奥电梯联合共同打造西奥可信电梯物联网平台，通过工业互联网的规则引...

数据库存储引擎创新：PolarDB X-Engine历史库产品

推荐图文

超级搞笑的短语：长肉这种事，有本事别冲腰来，冲胸

数据分析在医疗保健中的作用

For循环和While循环之流的终结

学习大数据必须知道的，10大数据技术

对未来基于大数据的信用体系的设想

SpringBoot项目中异步调用接口方式知多少？

随机推荐

5分钟快速掌握Adam优化算法

123

自动获取vlookup函数的第三参数，再也不

点燃激情！6个充满想象力的前端编码创意

小结：金融云的2020

大数据透露春节消费新趋势

[ Security ] WEB安全(二)之图解 CSRF 注

Flink CDC 原理、实践和优化

2021年云计算趋势预测畅想

阿里云与西奥电梯达成深度合作推出可信

关于我们