当前位置：主页 > 查看内容

一文彻底理解Apache Hudi的清理服务

发布时间：2021-08-21 00:00| 有位朋友查看

简介：Apache Hudi提供了MVCC并发模型保证写入端和读取端之间快照级别隔离。在本篇博客中我们将介绍如何配置来管理多个文件版本此外还将讨论用户可使用的清理机制以了解如何维护所需数量的旧文件版本以使长时间运行的读取端不会失败。 1. 回收空间以控制存储成……

Apache Hudi提供了MVCC并发模型保证写入端和读取端之间快照级别隔离。在本篇博客中我们将介绍如何配置来管理多个文件版本此外还将讨论用户可使用的清理机制以了解如何维护所需数量的旧文件版本以使长时间运行的读取端不会失败。

1. 回收空间以控制存储成本

Hudi 提供不同的表管理服务来管理数据湖上表的数据其中一项服务称为Cleaner 清理服务。随着用户向表中写入更多数据对于每次更新 Hudi会生成一个新版本的数据文件用于保存更新后的记录(COPY_ON_WRITE) 或将这些增量更新写入日志文件以避免重写更新版本的数据文件 (MERGE_ON_READ)。在这种情况下根据更新频率文件版本数可能会无限增长但如果不需要保留无限的历史记录则必须有一个流程服务来回收旧版本的数据这就是 Hudi 的清理服务。

2. 问题描述

在数据湖架构中读取端和写入端同时访问同一张表是非常常见的场景。由于 Hudi 清理服务会定期回收较旧的文件版本因此可能会出现长时间运行的查询访问到被清理服务回收的文件版本的情况因此需要使用正确的配置来确保查询不会失败。

3. 深入了解 Hudi清理服务

针对上述场景我们先了解一下 Hudi 提供的不同清理策略以及需要配置的相应属性 Hudi提供了异步或同步清理两种方式。在详细介绍之前我们先解释一些基本概念

Hudi 基础文件 HoodieBaseFile 由压缩后的最终数据组成的列式文件基本文件的名称遵循以下命名约定 fileId _ writeToken _ instantTime .parquet。在此文件的后续写入中文件 ID 保持不变并且提交时间会更新以显示最新版本。这也意味着记录的任何特定版本给定其分区路径都可以使用文件 ID 和 instantTime进行唯一定位。

**文件切片(FileSlice)** 在 MERGE_ON_READ 表类型的情况下文件切片由基本文件和由多个增量日志文件组成。

**Hudi 文件组(FileGroup)** Hudi 中的任何文件组都由分区路径和文件ID 唯一标识该组中的文件作为其名称的一部分。文件组由特定分区路径中的所有文件片组成。此外任何分区路径都可以有多个文件组。

4. 清理服务

Hudi 清理服务目前支持以下清理策略

KEEP_LATEST_COMMITS 这是默认策略。该清理策略可确保回溯前X次提交中发生的所有更改。假设每 30 分钟将数据摄取到 Hudi 数据集并且最长的运行查询可能需要 5 小时才能完成那么用户应该至少保留最后 10 次提交。通过这样的配置我们确保文件的最旧版本在磁盘上保留至少 5 小时从而防止运行时间最长的查询在任何时间点失败使用此策略也可以进行增量清理。

KEEP_LATEST_FILE_VERSIONS 此策略具有保持 N 个文件版本而不受时间限制的效果。当知道在任何给定时间想要保留多少个 MAX 版本的文件时此策略很有用为了实现与以前相同的防止长时间运行的查询失败的行为应该根据数据模式进行计算或者如果用户只想维护文件的 1 个最新版本此策略也很有用。

5. 例子

假设用户每 30 分钟将数据摄取到 COPY_ON_WRITE 类型的 Hudi 数据集如下所示

图1 每30分钟将传入的记录提取到hudi数据集中

该图显示了 DFS 上的一个特定分区其中提交和相应的文件版本是彩色编码的。在该分区中创建了 4 个不同的文件组如 fileId1、fileId2、fileId3 和 fileId4 所示。fileId2 对应的文件组包含所有 5 次提交的记录而 fileId4 对应的组仅包含最近 2 次提交的记录。

假设使用以下配置进行清理

hoodie.cleaner.policy KEEP_LATEST_COMMITS
hoodie.cleaner.commits.retained 2

Cleaner 通过处理以下事项来选择要清理的文件版本

不应清理文件的最新版本。确定最后 2 次已配置 1 次提交的提交时间。在图 1 中 commit 10:30 和 commit 10:00 对应于时间线中最新的 2 个提交。包含一个额外的提交因为保留提交的时间窗口本质上等于最长的查询运行时间。因此如果最长的查询需要 1 小时才能完成并且每 30 分钟发生一次摄取则您需要保留自 2*30 60 1 小时以来的最后 2 次提交。此时最长的查询仍然可以使用以相反顺序在第 3 次提交中写入的文件。这意味着如果一个查询在 commit 9:30 之后开始执行当在 commit 10:30 之后触发清理操作时它仍然会运行如图 2 所示。现在对于任何文件组只有那些没有保存点另一个 Hudi 表服务且提交时间小于第 3 次提交下图中的“提交 9:30” 的文件切片被清理。

图2 保留最近3次提交对应的文件

假设使用以下配置进行清理

hoodie.cleaner.policy KEEP_LATEST_FILE_VERSIONS
hoodie.cleaner.fileversions.retained 1

清理服务执行以下操作

对于任何文件组文件切片的最新版本包括任何待压缩的被保留其余的清理掉。如图 3 所示如果在 commit 10:30 之后立即触发清理操作清理服务将简单地保留每个文件组中的最新版本并删除其余的。

图3 保留每个文件组中的最新文件版本

6. 配置

可以在此处[1] 中找到有关所有可能配置的详细信息以及默认值。

7. 运行命令

Hudi 的清理表服务可以作为单独的进程运行可以与数据摄取一起运行。正如前面提到的它会清除了任何陈旧文件。如果您想将它与摄取数据一起运行可以使用配置同步或异步运行[2]。或者可以使用以下命令独立运行清理服务

[hoodie]$ spark-submit --class org.apache.hudi.utilities.HoodieCleaner \
 --props s3:///temp/hudi-ingestion-config/config.properties \
 --target-base-path s3:///temp/hudi \
 --spark-master yarn-cluster

如果您希望与写入异步运行清理服务可以配置如下内容

hoodie.clean.automatic true
hoodie.clean.async true

此外还可以使用 Hudi CLI[3] 来管理 Hudi 数据集。CLI 为清理服务提供了以下命令

cleans showclean showpartitionsclean run

可以在 org.apache.hudi.cli.commands.CleansCommand 类[4] 中找到这些命令的更多详细信息和相关代码。

8. 未来计划

目前正在进行根据已流逝的时间间隔引入新的清理策略即无论摄取发生的频率如何都可以保留想要的文件版本可以在此处[5] 跟踪进度。

我们希望这篇博客能让您了解如何配置 Hudi 清理服务和支持的清理策略。请访问博客部分[6] 以更深入地了解各种 Hudi 概念。

引用链接

[1] 此处: https://hudi.apache.org/docs/configurations.html#compaction-configs

[2] 同步或异步运行: https://hudi.apache.org/docs/configurations.html#withAsyncClean

[3] Hudi CLI: https://hudi.apache.org/docs/deployment.html#cli

[4] org.apache.hudi.cli.commands.CleansCommand 类: https://github.com/apache/hudi/blob/master/hudi-cli/

[5] 此处: https://issues.apache.org/jira/browse/HUDI-349

[6] 博客部分: https://hudi.apache.org/blog.html

随机推荐

买了域名之后怎么建网站

买了域名之后怎么建网站？域名是搭建网站必不可少的一部分，是网站流量的入...
怎么在虚拟主机中上传东西

怎么在虚拟主机中上传东西？在虚拟主机中上传东西，通过web端文件管理、FTP软...
五分钟实现外网访问你的本地Web项目

前言有时候你在本地写了一个web项目，地址是http:localhost:8080/XXX，但是你只...
2021年JS框架预测和IT领域技术趋势

我们希望找出那些潜在工作投资回报率最高的学习和技术主题。这里我们不是要分出...
VPS主机系统选择32位还是64位

之前，我给大家介绍了VPS选购的相关文章，今天说以下VPS选择32位还是64位。 32位...
服务器遭遇WEB移动SOA挑战将何去何从

行业专家说尽管Web应用、移动应用以及SOA出现井喷式增长，但是大型机仍旧是具有...
从JS中学习函数式编程的五项支柱

一、什么是函数式编程从FP函数式编程的眼中看来，世界的万事万物就是处理数据流...
函数计算助力世纪联华平滑支撑双11大促

客户介绍世纪联华是一家门店超过 170 余家，具备全国网点布局，在快速消费品连...
【巡检问题分析与最佳实践】PolarDB MySQ

往期分享RDS MySQL RDS MySQL 实例空间问题 RDS MySQL 内存使用问题 RDS MySQL ...
云服务器查询实例操作限制 - API 文档

1. 接口描述接口请求域名： cvm.tencentcloudapi.com 。本接口（DescribeInsta...

一文彻底理解Apache Hudi的清理服务

推荐图文

大数据公司又被查，爬虫程序员在内20余人被抓！

【版本升级】腾讯云防火墙 2.1.0 版本正式发布！

企业邮箱怎么申请流程

MaxCompute非事务表如何更新数据

零基础学习大数据挖掘的33个知识点整理

防腐层防的是哪门子腐

随机推荐

买了域名之后怎么建网站

怎么在虚拟主机中上传东西

五分钟实现外网访问你的本地Web项目

2021年JS框架预测和IT领域技术趋势

VPS主机系统选择32位还是64位

服务器遭遇WEB移动SOA挑战将何去何从

从JS中学习函数式编程的五项支柱

函数计算助力世纪联华平滑支撑双11大促

【巡检问题分析与最佳实践】PolarDB MySQ

云服务器查询实例操作限制 - API 文档

关于我们