当前位置：主页 > 查看内容

CDP中的Hive3系列之Hive性能调优

发布时间：2021-08-11 00:00| 有位朋友查看

简介：这是CDP中Apache Hive3用户指南系列之一之前的文章请参考 CDP的Hive3系列之Hive Metastore介绍 CDP中的Hive3系列之Apache Hive3的特性 CDP中的Hive3系列之启动Apache Hive3 CDP中的Hive3系列之Hive3使用指南 CDP中的Hive3系列之管理Hive3 CDP中的Hive3系列……

这是CDP中Apache Hive3用户指南系列之一之前的文章请参考 CDP的Hive3系列之Hive Metastore介绍 CDP中的Hive3系列之Apache Hive3的特性 CDP中的Hive3系列之启动Apache Hive3 CDP中的Hive3系列之Hive3使用指南 CDP中的Hive3系列之管理Hive3 CDP中的Hive3系列之管理Hive的工作负载和 CDP中的Hive3系列之配置Apache Hive3 和 CDP中的Hive3系列之保护Hive3 .

1????性能调优的最佳实践

查看与配置集群、存储数据和编写查询相关的某些性能调优指南以便您可以保护集群和相关服务、自动扩展资源以处理查询等。

1.1?? 最佳实践

·???????使用 Ranger 安全服务来保护您的集群和依赖服务。

·???????使用 ORC 文件格式存储数据。其他的例如 Parquet 也受支持但对于 Hive 查询没有那么快。

·???????通过检查解释计划确保查询完全矢量化。

原文链接 https://docs.cloudera.com/cdp-private-cloud-base/latest/hive-performance-tuning/topics/hive_prepare_to_tune_performance.html

2????ORC 文件格式

您可以通过多种方式节省存储空间但使用优化行列式 (ORC) 文件格式来存储 Apache Hive 数据最为有效。ORC 是 Hive 数据的默认存储。

出于以下原因推荐用于 Hive 数据存储的 ORC 文件格式

·???????高效压缩存储为列并进行压缩从而减少磁盘读取。列格式也是 Tez 中矢量化优化的理想选择。

·???????快速读取 ORC 具有内置索引、最小值/最大值和其他聚合这些聚合会导致在读取过程中跳过整个条带。此外谓词下推将过滤器推送到读取中以便读取最少的行。布隆过滤器进一步减少了返回的行数。

在大规模部署中得到验证 Facebook 使用 ORC 文件格式进行 300 PB 部署。

图片 1.png

ORC 总体上提供了最佳的 Hive 性能。另外要指定存储格式还可以为表指定压缩算法如下例所示

CREATE TABLE addresses (
 name string,
 street string,
 city string,
 state string,
 zip int
 ) STORED AS orc TBLPROPERTIES ( orc.compress Zlib

通常不需要设置压缩算法因为您的 Hive 设置包括默认算法。使用 ORC 高级属性您可以为点查找中经常使用的列创建布隆过滤器。

Hive 支持 Parquet 和其他格式用于仅插入的 ACID 表和外部表。您还可以编写自己的 SerDes Serializers、Deserializers 接口来支持自定义文件格式。

2.1?? 高级 ORC 属性

通常您不需要修改优化行列式 (ORC) 属性但偶尔 Cloudera支持建议进行此类更改。查看可以配置 ORC 以满足您的需要的属性键、默认值和描述。

2.1.1???????属性键和默认值

您可以使用 Cloudera Manager 中的安全阀功能来更改 ORC 属性。

键值

默认设置

描述

orc.compress

ZLIB

压缩类型 NONE、ZLIB、SNAPPY 。

orc.compress.size

262,144

每个压缩块中的字节数。

orc.stripe.size

268,435,456

每个条带中的字节数。

orc.row.index.stride

10,000

索引条目之间的行数 ( 1,000)。

orc.create.index

true

设置是否创建行索引。

orc.bloom.filter.columns

必须为其创建布隆过滤器的以逗号分隔的列名称列表。

orc.bloom.filter.fpp

0.05

布隆过滤器的误报概率。必须大于 0.0 且小于 1.0。

原文链接 https://docs.cloudera.com/cdp-private-cloud-base/latest/hive-performance-tuning/topics/hive_maximize_storage_resources_using_orc.html

3????使用分区提高性能

您必须了解什么是分区修剪、如何启用动态分区以及批量加载数据所需的配置以确保显着提高性能。您可以使用分区来显着提高性能。您可以设计 Hive 表和物化视图分区以映射到文件系统/对象存储上的物理目录。例如按日期-时间分区的表可以组织每天加载到 Hive 中的数据。

大型部署可以有数以万计的分区。当 Hive 在查询处理期间发现分区键时会间接进行分区修剪。例如加入维度表后分区键可能来自维度表。查询按分区过滤列限制对一个或几个匹配分区进行的扫描。当 WHERE 子句中存在分区键时会直接进行分区修剪。分区列是虚拟的不会写入主表因为这些列对于整个分区是相同的。

您不需要指定动态分区列。如果启用动态分区 Hive 会生成分区规范。

加载1到9个分区的配置

SET hive.exec.dynamic.partition.mode nonstrict;
SET hive.exec.dynamic.partition true;

要将数据批量加载到分区 ORC 表中您可以使用以下属性优化数据加载到 10 个或更多分区的性能。

加载 10 个或更多分区的配置

hive.optimize.sort.dynamic.partition true

原文链接 https://docs.cloudera.com/cdp-private-cloud-base/latest/hive-performance-tuning/topics/hive_improving_performance_using_partitions.html

4????Hive 中的分桶表

如果您将数据从较早的 Apache Hive 版本迁移到Hive 3 您可能需要处理影响性能的分桶表。查看 CDP 如何简化处理存储桶。您将了解处理动态功能的最佳实践。

您可以将表或分区划分为桶桶的存储方式如下

·???????作为表目录中的文件。

·???????如果表已分区则作为分区目录。

没有必要在 Hive 3 表中指定桶。在 CDP 中 Hive 3 隐式存储数据并且不像早期版本 ACID V1 那样需要用户密钥或用户提供的存储桶编号。例如

CREATE TABLE hello_acid (load_date date, key int, value int)
CLUSTERED BY(key) INTO 3 BUCKETS
STORED AS ORC TBLPROPERTIES ( transactional true

CREATE TABLE hello_acid_v2 (load_date date, key int, value int);

ACID V2 表的性能与使用桶的非 ACID 表相当。ACID V2 表与原生云存储兼容。

在从早期版本迁移的表中使用存储桶的一个常见挑战是在工作负载或数据向上或向下扩展时保持查询性能。例如您可能拥有一个使用 16 个存储桶以支持 1000 个用户的平稳运行的环境但是如果您不及时调整存储桶和分区用户数量在一两天内激增至 100,000 会产生问题。由于在您构建了一个包含存储桶的表之后必须重新加载包含存储桶数据的整个表以减少、添加或删除存储桶因此调整存储桶很复杂。

在使用 Tez 的 CDP 中您只需要处理最大表的桶。如果工作负载需求快速变化较小表的桶会动态变化以完成表 JOIN。

您执行以下与存储桶相关的任务

·???????设置hive-site.xml以启用存储桶

SET hive.tez.bucket.pruning true

·???????分区和分桶的批量加载表

将数据加载到分区和分桶的表中时请设置以下属性以优化过程

SET hive.optimize.sort.dynamic.partition true

如果您在 user_id 数据上有 20 个存储桶则以下查询仅返回与 user_id 1 关联的数据 ?SELECT * FROM tab WHERE user_id

为了最好地利用 Tez 上表桶的动态能力请采用以下做法

·???????对最大表的桶使用单个键。

·???????通常您需要按最大维度表对主表进行分桶。例如销售表可能按客户分类而不是按商品或商店分类。但是在这种情况下销售表按商品和商店排序。

·???????通常不要对同一列进行分桶和排序。

存储区文件多于行数的表表明您应该重新考虑表的存储区划分方式。

原文链接 https://docs.cloudera.com/cdp-private-cloud-base/latest/hive-performance-tuning/topics/hive_bucketed_tables.html

本文转自网络，原文链接：https://developer.aliyun.com/article/786549
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：腾讯云发布全新游戏云解决方案，助力游戏开发者高效开发 下一篇：阿里云-云开发平台计算篇——加强应用本身的计算能力

随机推荐

关于现代包管理器的深度思考-为什么现在

很长时间没有更新原创文章了，但是还一直在思考和沉淀当中，后面公众号会更频繁...
在DevOps中整合“安全即代码”文化

最近，DevOps的采用导致了企业计算的重大转变。除无服务器计算，动态配置和即付...
华瑞银行金融一朵云安全建设实践，智慧银

中国最?好的一朵云飘进了华瑞银行。阿里云将进一步助力华瑞银行All in Cloud。 -...
VPS主机和租用服务器优势分析

在TOP云（zuntop.com）科技租赁过服务器的站长都知道独立服务器在价格上比VPS主...
阿里云发布工业大脑3.0，满足一站式开发

9月17日，2020云栖大会上，阿里云正式发布工业大脑3.0。阿里云智能资深产品专家...
JavaScript之深入理解this

定义 this是函数运行时自动生成的内部对象，即调用函数的那个对象。（不一定很准...
Nacos或者Config是怎么实现配置热刷新的

本文转载自网络，原文链接：https://mp.weixin.qq.com/s/vlOUg46B5bcmToX-fjavJQ...
RDS PostgreSQL 安全最佳实践

一、PostgreSQL行业位置一行业位置首先我们看一看RDS PostgreSQL在整个行业当...
云计算市场在2020年取得突破性增长

2020年对于云计算行业来说是突破性的一年，因为公共云供应商增加了收入，而疫情...
MySQL Case-索引key对select count(*)的

查看表结构，sbtest1有主键、k_1二级索引、i_c二级索引 CREATE TABLE `sbtest1` ...

CDP中的Hive3系列之Hive性能调优

推荐图文

新零售行业优质解决方案分享【智能语音点餐机解决方

服务器托管节省开支节省费用

租用云服务器一年大概的费用

尽管获三千万融资，该域名也换得了吧！

2021年值得关注的8种边缘计算趋势

P2P鼻祖收购四字母域名LCAM.com！梦工厂、百事均有

随机推荐

关于现代包管理器的深度思考-为什么现在

在DevOps中整合“安全即代码”文化

华瑞银行金融一朵云安全建设实践，智慧银

VPS主机和租用服务器优势分析

阿里云发布工业大脑3.0，满足一站式开发

JavaScript之深入理解this

Nacos或者Config是怎么实现配置热刷新的

RDS PostgreSQL 安全最佳实践

云计算市场在2020年取得突破性增长

MySQL Case-索引key对select count(*)的

关于我们