当前位置：主页 > 查看内容

Hologres揭秘：优化COPY，批量导入性能提升5倍+

发布时间：2021-07-02 00:00| 有位朋友查看

简介：Hologres 中文名交互式分析是阿里云自研的一站式实时数仓这个云原生系统融合了实时服务和分析大数据的场景全面兼容PostgreSQL协议并与大数据生态无缝打通能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析。它的出现简化了业务的架构为……

Hologres 中文名交互式分析是阿里云自研的一站式实时数仓这个云原生系统融合了实时服务和分析大数据的场景全面兼容PostgreSQL协议并与大数据生态无缝打通能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析。它的出现简化了业务的架构为业务提供实时决策的能力让大数据发挥出更大的商业价值。从阿里集团诞生到云上商业化随着业务的发展和技术的演进 Hologres也在持续不断优化核心技术竞争力为了让大家更加了解Hologres 我们计划持续推出Hologres底层技术原理揭秘系列从高性能存储引擎到高效率查询引擎高吞吐写入到高QPS查询等全方位解读Hologres 请大家持续关注

往期精彩内容

2020年VLDB的论文《Alibaba Hologres: A cloud-Native Service for Hybrid Serving/Analytical Processing》Hologres揭秘首次公开阿里巴巴云原生实时数仓核心技术揭秘Hologres揭秘首次揭秘云原生Hologres存储引擎Hologres揭秘 Hologres高效率分布式查询引擎Hologres揭秘高性能原生加速MaxCompute核心原理

本期我们将带来Hologers COPY导入性能优化实现性能提升5 倍方面的技术原理解读。背景

在PostgreSQL中 COPY命令用于文本文件数据导入其在PG生态里面有着重要的作用

完美兼容PG几十种数据类型包括自定义类型等等。文本解析导入细节考虑的非常完善也是业界标杆。业务价值业务集成的成本低 psql一条命令或者copy manager等等无需第三方的集成依赖。日常开发测试中高频使用比如tpch测试功能验证线上问题复现等。

Hologres完全兼容PG(PostgreSQL)生态支持使用COPY命令导入数据但是在PostgreSQL中 COPY的导入性能差强人意只有20MB/s。而大数据处理场景往往需要高性能的写入 PG的COPY写入性能不能满足实际业务。
基于此 Hologres对COPY写入性能进行了优化以达到高性能、高可用的目的。本文将会介绍Hologres对COPY命令优化的技术原理从而实现导入性能5倍。

COPY瓶颈定位

在早期版本中 COPY导入在Hologres的实现流程图如下
执行流程

1.FE FrontEnd 前端节点负责接收用户的请求数据流入以及具体的解析工作(包括分行拆列类型Format解析等)。

2.FE把完成解析的数据转成Arrow写入到Shuffle Service。

3.HQE Hologres Query Engine 从Shuffle Service获取数据并根据分布键完成Shuffle。

4.SE Storage Engine 把数据流写入Pangu。

在COPY工作的过程中能够看到FE的进程一直处于CPU打满的状态下图是性能调试时的记录

可以确定以下瓶颈

Shuffle Service中间节点引入的性能损耗。如上图的红框部分需要将PG的内部数据结构HeapTuple转换成Arrow并写入Shuffle Service。PG解析本身的耗时比如 I/O 对数据流切分按照类型Format解析等等。

改造技术难点

定位了瓶颈之后结合Hologres现有技术架构要提升性能主要有以下几个难点

PostgreSQL的进程模型有很多Global Runtime Context 多线程改造成本高。类型解析依赖PostgreSQL类型系统所以无法简单的利用第三方文本解析库加速比如Arrow。FE Meta管理过程中需要PostgreSQL系统表和COPY的交互从而保证PostgreSQL COPY系统表的行为稳定及正确性。Hologres优化方案

为了突破上面的难点从而解决导入效率的问题 Hologres针对FE做了优化主要是解耦FE工作流程

保证Request进程只负责接收请求数据流入以及简单的数据切分文本解析的工作交给具备PG计算能力支持的PQE分布式执行优化后的执行方案如图

优化后数据通过COPY导入Hologres的执行流程如下 FE负责接收用户请求并把流入的数据按行切片并写入共享队列Queue。Coordinator把FE和PQE调度到同一台机器这样Queue能以Shared Memory的方式实现 FE和PQE交互更高效。PQE从Queue里面获取对应的切片并完成拆行分列以及具体类型解析。HQE从PQE拖取数据并计算分布并Shuffle。SE负责把流入数据写入到Pangu。

5倍性能提升

通过对系统的优化 Hologres的COPY导入性能有了质的飞跃。以TPCH lineitem表为例 1亿条数据文件13G COPY导入性能如下

可以从图中看到优化后 Hologres COPY上传速度能达200MB/s 相比PostgreSQL快5倍以上

总结

Hologres致力于一站式实时数仓在数据接入上有着非常庞大的生态家族支持多种异构数据源的离线、实时写入包括DataWorks数据集成、Flink、MaxCompute等丰富的写入方式。在大数据场景中 Hologres完全兼容PostgreSQL的COPY命令并在此基础之上对系统优化实现了COPY导入性能比PG快5倍。COPY命令方式导入数据为Hologres数据接入生态又新增一种方式满足业务高性能写入需求助力快速搭建企业级实时数仓。

作者郑晓文鲁来现从事交互式分析Hologres引擎研发工作。

后续我们将会陆续推出有关Hologres的技术底层原理揭秘系列具体规划如下敬请持续关注

Hologres揭秘首次公开阿里巴巴云原生实时数仓核心技术揭秘Hologres揭秘首次揭秘云原生Hologres存储引擎Hologres揭秘深度解析高效率分布式查询引擎Hologres揭秘高性能原生加速MaxCompute核心原理Hologres揭秘如何利用COPY实现高效率导入本文 Hologres揭秘如何支持高吞吐UpsertHologres揭秘如何支持在线服务场景的超高QPSHologres揭秘如何支持高并发查询Hologres揭秘如何支持高可用架构Hologres揭秘如何支持资源隔离支持多种负载Hologres揭秘向量检索引擎Proxima原理与使用实践Hologres揭秘读懂执行计划查询性能翻十倍Hologres揭秘分布式系统如何设计Shard与Table GroupHologres揭秘如何支持更多Postgres生态扩展包Hologres揭秘高吞吐写入Hologres的N种姿势......

感谢您的阅读也欢迎使用体验Hologres 可以参考使用手册同时也欢迎扫码加入钉群进行技术交流

holo公共云用户群.jpg

本文转自网络，原文链接：https://developer.aliyun.com/article/785001
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：基于实时深度学习的推荐系统架构设计和技术演进 下一篇：HaaS EDU物联网教育开发板来啦！漂亮的不像开发板！

随机推荐

为何Spark在编程界越来越吃香？Spark将成

前言统计科学家使用交互式的统计工具(比如R)来回答数据中的问题，获得全景的认...
没有数据的数据科学？请尽早聘用数据工程

本文转载自公众号读芯术(ID：AI_Discovery)。这一刻你正在应对什么挑战?这位前...
TIOBE 3月榜单：新功能将加入，C语言仍高

TIOBE 公布了 2021 年 3 月的编程语言排行榜。本月 TIOBE 指数没有什么有趣的变...
Java编程内功-数据结构与算法「赫夫曼树

基本介绍给定 n 个权值作为 n 个叶子节点，构造一颗二叉树，若该树的带权路径长...
一日一技：巧用or关键字实现多重条件判断

在Python开发过程中，我们难免会遇到多重条件判断的情况的情况，此时除了用很多...
NVIDIA GPU Operator分析一：NVIDIA驱动

背景我们知道如果在Kubernetes中支持GPU设备调度需要做如下的工作节点上安装...
鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

想了解更多内容，请访问： 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...
溢价域名的续费价格如何

溢价域名的续费价格如何？通常来说，因为溢价域名的价值高于普通域名，所以溢...
互联网创业第一步，从他花3500美元买了个

近几年，互联网行业蓬勃发展，在互联网浪潮的冲击下，互联网创业已成为一种比较...
技术扫盲：关于低代码编程的可持续性交付

本文转载自微信公众号「bugstack虫洞栈」，作者小傅哥。转载本文请联系bugstack...

Hologres揭秘：优化COPY，批量导入性能提升5倍+

推荐图文

云安全的现代方法

云服务器调整实例配置询价 - API 文档

国内首款基于.NET Core平台的大数据可视化分析工具

智能数据构建与管理平台Dataphin的前世今生：缘起

大数据时代，必须做好这3大布局：才能抢占新的造富

C4D 学习笔记

随机推荐

为何Spark在编程界越来越吃香？Spark将成

没有数据的数据科学？请尽早聘用数据工程

TIOBE 3月榜单：新功能将加入，C语言仍高

Java编程内功-数据结构与算法「赫夫曼树

一日一技：巧用or关键字实现多重条件判断

NVIDIA GPU Operator分析一：NVIDIA驱动

鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

溢价域名的续费价格如何

互联网创业第一步，从他花3500美元买了个

技术扫盲：关于低代码编程的可持续性交付

关于我们