当前位置：主页 > 查看内容

数据湖实操讲解【 JindoTable 计算加速】第二十二讲：对 Hive 数

发布时间：2021-07-29 00:00| 有位朋友查看

简介：本期导读【JindoTable 计算加速】第二十二讲主题对 Hive 数仓表进行高效小文件合并d JindoFS 对 OSS 上数据进行训练加速讲师辰石阿里巴巴计算平台事业部技术专家内容框架背景介绍主要功能实操演示直播回放链接 22讲 https://developer.aliyun.com/……

本期导读【JindoTable 计算加速】第二十二讲

主题对 Hive 数仓表进行高效小文件合并d JindoFS 对 OSS 上数据进行训练加速

讲师辰石阿里巴巴计算平台事业部技术专家

内容框架

背景介绍主要功能实操演示

直播回放链接 22讲

https://developer.aliyun.com/live/247112

一、背景介绍小文件如何产生 ? ? 动态分区插入数据产生大量的小文件从而导致 map 数量剧增reduce 数量越多小文件也越多( reduce 的个数和输出文件是对应的)数据源本身就包含大量的小文件小文件带来的问题 ? ? 小文件会开很多 map 一个 map 开一个 JVM 去执行所以这些任务的初始化启动执行会浪费大量的资源严重影响性能小文件会给底层文件系统带来很大压力如在 HDFS 中每个小文件对象约占150 byte 如果小文件过多会占用大量内存。这样 NameNode 内存容量严重制约了集群的扩展。小文件解决方案从小文件产生的途经就可以从源头上控制小文件数量

? ?? 使用 Sequencefile 作为表存储格式不要用 textfile 在一定程度上可以减少小文件

? ?? 减少 reduce 的数量(可以使用参数进行控制)

? 少用动态分区用时记得按 distribute by 分区

对于已有的小文件我们可以通过以下几种方案解决

? 通过参数进行调节设置 map/reduce 端的相关参数

? 重建表建表时减少 reduce 数量

? 使用 hadoop archive 命令把小文件进行归档

二、主要功能JindoTableJindoTable 提供表或分区级别的热度统计、存储分层和表文件优化的功能常见命令如下

? -accessStat/-leastUseStat

? -cache/-uncache/-archive/-unarchive/-archiveTable/-unarchiveTable/-status

? -optimize

? -showTable/-showPartition/-listTables

? -dumpmc

? -moveTo

Hive表小文件合并Jindo table –showTable/-showPartition –t db.tablename -p partitionSpec 显示表格或者分区的状态,如果表文件过小会提示文件过小

Jindo table –optimize db.tablename 优化表存储层的数据组织

Jindo table –optimize db.tablename 优化后检查表的状态以及目录格式如下

三、实操演示

对 hive 数仓表进行小文件高效合并演示

?点击回放链接直接观看第22讲视频回放获取讲师实例讲解

? ?https://developer.aliyun.com/live/247112

?Github链接

https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题欢迎扫码加入钉钉交流群

本文转自网络，原文链接：https://developer.aliyun.com/article/785988
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：秒懂消息队列 下一篇：容器服务ACK+文件存储NAS快速搭建NGINX网站

随机推荐

VPS主机和租用服务器优势分析

在TOP云（zuntop.com）科技租赁过服务器的站长都知道独立服务器在价格上比VPS主...
JavaScript之深入理解this

定义 this是函数运行时自动生成的内部对象，即调用函数的那个对象。（不一定很准...
在DevOps中整合“安全即代码”文化

最近，DevOps的采用导致了企业计算的重大转变。除无服务器计算，动态配置和即付...
Nacos或者Config是怎么实现配置热刷新的

本文转载自网络，原文链接：https://mp.weixin.qq.com/s/vlOUg46B5bcmToX-fjavJQ...
MySQL Case-索引key对select count(*)的

查看表结构，sbtest1有主键、k_1二级索引、i_c二级索引 CREATE TABLE `sbtest1` ...
关于现代包管理器的深度思考-为什么现在

很长时间没有更新原创文章了，但是还一直在思考和沉淀当中，后面公众号会更频繁...
阿里云发布工业大脑3.0，满足一站式开发

9月17日，2020云栖大会上，阿里云正式发布工业大脑3.0。阿里云智能资深产品专家...
华瑞银行金融一朵云安全建设实践，智慧银

中国最?好的一朵云飘进了华瑞银行。阿里云将进一步助力华瑞银行All in Cloud。 -...
云计算市场在2020年取得突破性增长

2020年对于云计算行业来说是突破性的一年，因为公共云供应商增加了收入，而疫情...
RDS PostgreSQL 安全最佳实践

一、PostgreSQL行业位置一行业位置首先我们看一看RDS PostgreSQL在整个行业当...

数据湖实操讲解【 JindoTable 计算加速】第二十二讲：对 Hive 数

推荐图文

服务器托管节省开支节省费用

2021年值得关注的8种边缘计算趋势

租用云服务器一年大概的费用

P2P鼻祖收购四字母域名LCAM.com！梦工厂、百事均有

新零售行业优质解决方案分享【智能语音点餐机解决方

尽管获三千万融资，该域名也换得了吧！

随机推荐

VPS主机和租用服务器优势分析

JavaScript之深入理解this

在DevOps中整合“安全即代码”文化

Nacos或者Config是怎么实现配置热刷新的

MySQL Case-索引key对select count(*)的

关于现代包管理器的深度思考-为什么现在

阿里云发布工业大脑3.0，满足一站式开发

华瑞银行金融一朵云安全建设实践，智慧银

云计算市场在2020年取得突破性增长

RDS PostgreSQL 安全最佳实践

关于我们