当前位置：主页 > 查看内容

顶会点赞！PolarDB Serverless实现了哪些突破？

发布时间：2021-07-08 00:00| 有位朋友查看

简介：云原生的Serverless数据库正在成为下一个五年的云数据库发展趋势。近日在国际数据库顶级会议2021 ACM SIGMOD上一篇以PolarDB Serverless为主题的论文被评委会认为指引了下一代数据库服务的发展方向。这篇题为《PolarDB Serverless: A Cloud Native Dat……

云原生的Serverless数据库正在成为下一个五年的云数据库发展趋势。

近日在国际数据库顶级会议2021 ACM SIGMOD上一篇以PolarDB Serverless为主题的论文被评委会认为指引了下一代数据库服务的发展方向。

这篇题为《PolarDB Serverless: A Cloud Native Database for Disaggregated Data Centers》的论文介绍了阿里云自研数据库PolarDB基于计算存储分离实现的最新Serverless技术架构研究进展。

PolarDB Serverless论文的录用标志着阿里云PolarDB数据库在最新一代架构的探索上迈出领先一步。

以下是这项突破的核心内容介绍

?01第一代云原生数据库的困境

早期的云上数据库大部分是以ECS中的自建数据库和云厂商托管的数据库RDS的形态存在的到目前为止还是有非常大的用户量。

这些云上数据库架构还是传统数据库的架构只是运行在云的基础设施上数据库本身并没有为云做太多的改造和适配。局限于其架构各项资源等比率的限制在一个范围内其弹性范围、资源利用率都受到较大的限制无法充分利用云的红利。

以亚马逊Aurora和阿里云PolarDB为代表的第一代云原生数据库第一次对数据库架构进行了改造实现了存储和计算分离并基于此实现了一写多读一定程度上适配云架构存储完成了池化和按量付费这是对云数据库非常大的进步。

但此架构下 CPU和内存依然是强绑定的导致计算要实现真正按需供应也非常困难。也就是说 CPU资源和内存资源是一个整体只能作为一个最小的单位升降级。例如在亚马逊Aurora中计算资源和缓存资源的比例是1core CPU 2GB内存。

然而 CPU和内存资源比例的绑定对一些场景下对用户是不合理的

例如分析型内存数据库用户用户使用少数CPU来定期同步和更新数据但需要大内存因为维表数据、或者中间结果需要缓存在内存里避免从磁盘来读的延迟。

事务型数据库例如电商等互联网应用场景里客户的应用往往存在热点因此少量的内存就足够保证缓存命中率超过99% 但高峰时CPU需要弹到64c甚至更多核 CPU的需求会高于内存的需求。

简而言之因为第一代云原生数据库无法实现计算和内存资源的解耦这也是导致目前云原生数据库价格依然高于RDS和自建数据库无法占据大部分市场的核心原因。

?02?实现新架构的突破

不过随着PolarDB Serverless新架构的率先提出这种情况可能要出现极大改变。

PolarDB Serverless的最大创新之处在于在业内首次实现了内存与计算/存储的解耦内存进一步池化形成三层池化使得弹性能力有数量级的提升同时内存池化大幅度降低了成本实现了完全地按量使用和按需弹性贴合各种场景。

PolarDB Serverless构建了一个全新的数据库形态即DCaaDB Datacenter as a Database

整个IDC形成一个多租户的大数据库其全部的CPU 内存存储构成三个独立的资源池。在资源池未耗尽的情况下任何一个用户租户都可能任意的弹性扩展任何一种资源到任何一个规格用户为其SQL动态消耗的CPU、内存和存储买单不需要预置任何的规格。

这种情况下 CPU和内存资源因其池化其使用率将会大幅度提升云原生数据的成本将会远低于自建和RDS等一体化数据库云原生技术的价值将会得到充分的体现数据库市场将会重新洗牌。

?03?背后的技术难点

在PolarDB Serverless之前学术界已经对分离架构有一定的研究并且也进行了一些技术上的实验但是都没有解决分离架构下的数据库的性能和弹性问题。

PolarDB Serverless通过进行技术创新解决了困扰业界的难题

PolarDB Serverless中引入了多租户、分布式的内存池的设计包括页面分配和生命周期管理。

第一个挑战是增加内存池设计后确保系统能正确的执行事务。例如一个被修改过的数据页不应该读到老的数据即使跨节点也是如此我们使用全局的缓存一致的机制类似于多核cpu之间缓存一致性机制来实现。

还有当主节点正在分裂或合并一个 B Tree 索引其他节点不应看到中间不一致的 B-tree 结构我们需要使用全局页锁来保护它。?当节点执行只读事务时它必须避免读取未提交事务写入的任何内容我们通过在数据库节点之间同步全局视图来实现它。

第二个挑战是高效地执行事务。Serverless架构对数据库的性能会产生负面影 ?因为数据库要从远程访问数据内存池的或者存储池的这会引入额外的网络延迟。

我们大量利用RDMA优化尤其是one-sided RDMA verbs 包括使用 RDMA CAS来优化获取全局页锁的过程。?为了提高并发性数据库节点使用乐观锁技术来避免不必要的全局页锁。?

此外 PolarDB内核引入一些技术减少读写带宽例如使用重做日志下推技术后存储可以直接从重做日志回放出最新版本的页面因此数据库进程不再需要写脏页到远程存储里。当数据库访问页面而本地缓存不命中时需要跨网络从远程内存和远程存储中获取页面这会慢于本地内存和磁盘因此通过预取提升本地缓存的命中率是提升分析查询类负载性能的关键。

在Serverless架构下数据库从一个单内核的系统变成了跨节点部署并且数据库的部分逻辑嵌入到并运行在内存池和存储池服务里。架构变得更复杂因此增加了系统故障的种类和可能性。

作为云数据库服务第三个挑战是构建一个可靠的系统。PolarDB设计了对不同节点类型的单节点崩溃的处理策略以保证系统中没有单点故障。?并且因为内存和存储中的状态与数据库节点解耦使用Serverless架构的PolarDB节点的崩溃恢复时间比使用单机架构的PolarDB内核快5.3倍。

在PolarDB Serverless架构之下我们对数据库的性能进行了一些测试最终的测试结果也远超预期。

这些结果也让我们有理由预测使用全资源分离的架构来实现云原生的Serverless数据库会成为下一个五年的云数据库发展趋势。

文 |?阿里云数据库工程师江疑、韩逸

本文转自网络，原文链接：https://developer.aliyun.com/article/785135
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：Pandas高级教程之:统计方法 下一篇：nginx 301 转跳

随机推荐

数据为先，“1+N”模式推动智慧教育创新

信息化2.0时代提出开展智慧教育创新发展行动。2019年2月，中共中央、国务院印发...
就凭这3点，可以完全理解Python的类方法

在Python语言中有如下3种方法：成员方法类方法(classmethod) 静态方法(staticm...
建站什么虚拟主机够用

建站什么虚拟主机够用？这要看搭建的是什么类型的网站。比如个人博客类型的网...
关于 Node.js 中的异步迭代器

从 10.0.0 版开始，异步迭代器就出现在 Node 中了，在本文中，我们将讨论异步迭...
星环科技TDS 为数据全生命周期管理提供一

2021年3月24日，主题为《数据的世界，世界的数据》的星环科技2021春季新品发布会...
步骤一：基础配置_弹性云服务器 ECS_快速

前提条件请您在购买前确保已完成注册和充值。详细操作请参见如何注册公有云管...
用于数据可视化的9款主流分析工具！

【51CTO.com快译】数据可视化工具不断发展，提供更强大的功能，同时改善可访问...
Docker生成新镜像版本的两种方式

Docker生成新镜像版本的两种方式 There are two ways Docker can generate new m...
高并发服务遇redis瓶颈引发time-wait事故

摘要元旦期间订单业务线告知推送系统无法正常收发消息，作为推送系统维护者...
实时数仓入门训练营：Hologres 数据导入/

本文整理自直播《Hologres 数据导入/导出实践-王华峰(继儒)》视频链接: https:/...

顶会点赞！PolarDB Serverless实现了哪些突破？

推荐图文

新疆喀什疫情｜疫情之下：大数据的洞察力

详解LongAdder实现原理

达摩院重要科技突破！空天数据库引擎Ganos解读

数据科学50年，数据科学家是否依然是21世纪最性感的

阿里云CDN/DCDN加速安全助力企业出海，原生防护延伸

2021 的 Node.js 开发人员路线图

随机推荐

数据为先，“1+N”模式推动智慧教育创新

就凭这3点，可以完全理解Python的类方法

建站什么虚拟主机够用

关于 Node.js 中的异步迭代器

星环科技TDS 为数据全生命周期管理提供一

步骤一：基础配置_弹性云服务器 ECS_快速

用于数据可视化的9款主流分析工具！

Docker生成新镜像版本的两种方式

高并发服务遇redis瓶颈引发time-wait事故

实时数仓入门训练营：Hologres 数据导入/

关于我们