当前位置:主页 > 查看内容

数据湖实操讲解【 JindoTable 计算加速】第十九讲:Spark 对 OSS

发布时间:2021-07-21 00:00| 位朋友查看

简介:本期导读 【JindoTable 计算加速】第十九讲 主题 Spark 对 OSS 上的 Parquet 数据进行查询加速uid JindoFS 对 OSS 上数据进行训练加速 讲师 流影 阿里巴巴计算平台事业部 EMR 技术专家 内容框架 JindoFS 计算加速介绍使用 JindoFS 计算加速演示 直播回放链接……
本期导读 【JindoTable 计算加速】第十九讲


主题 Spark 对 OSS 上的 Parquet 数据进行查询加速uid JindoFS 对 OSS 上数据进行训练加速

讲师 流影 阿里巴巴计算平台事业部 EMR 技术专家


内容框架

JindoFS 计算加速介绍使用 JindoFS 计算加速演示


直播回放链接 19讲

https://developer.aliyun.com/live/247100

一、JindoFS 计算加速介绍
背景介绍

当前数据湖市场规模正在飞速增长 随着数据规模的增长 基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储 相对于本地存储 其性能受到网络带宽和负载机器的影响 存在性能瓶颈和波动 同时因为远端读取 OSS 单次 IO 比较慢,在列存等一些随机读比较多的场景,性能差距尤其明显(无法预读)。在此背景下,稳定且高性能的数据读取方案已经迫在眉睫。

JindoFS 计算加速

JindoFS 通过?Native?Engine? 能够加速存储在?JindoFS / OSS?上面的?ORC / Parquet?文件,?配合?filter?pushdown 在?Spark / Hive / Presto?上明显的提升查询速度。

JindoFS 计算加速架构

image.png

TPCDS 5T 测试

image.png

TPCDS 5T 规模的 Spark 测试 使用 JindoFS 计算加速方案 平均 query 查询性能整体上较 Spark parquet 的方案提升22.9%( GeoMean) 总时间缩短从8158秒缩短到7309秒 下降12%


参考文章

tpcds 5t 查询性能报告 https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/comparisons/jindotable_native_vs_spark_parquet.md


q96 查询对比

spark 查询:

image.png

JindoFS 查询加速 :

image.png

结论 下推 filter 之后读取相同数据量时间缩短近一倍


二、使用 JindoFS 计算加速


Spark 使用 JindoFS 计算加速读取 Parquet 数据

前提

已创建 EMR-3.35.0 及后续版本或 EMR-4.9.0 及后续版本 且 Parquet 文件已存放至JindoFS 或 OSS

Spark 使用 JindoFS 计算加速

添加配置 spark.sql.extensions com.aliyun.emr.sql.JindoTableExtension


三、演示
演示内容 Spark 2.4 使用 JindoFS 计算加速 ? ? ?Spark 2.4 任务界面查看计算加速相关信息



参考文章

计算加速使用文档 https://help.aliyun.com/document_detail/213329.html?spm a2c4g.11186623.6.1123.5d04196bvr9MzP




?点击回放链接 直接观看第19讲视频回放 获取讲师实例讲解

? ?https://developer.aliyun.com/live/247100



?Github链接

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题 欢迎扫码加入钉钉交流群

69c0a02cc68742fca5d49d92413dc67a.png


本文转自网络,原文链接:https://developer.aliyun.com/article/785571
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!
上一篇:linux 安装云监控 下一篇:没有了

推荐图文


随机推荐