主题 Spark 对 OSS 上的 Parquet 数据进行查询加速uid JindoFS 对 OSS 上数据进行训练加速
内容框架
JindoFS 计算加速介绍使用 JindoFS 计算加速演示直播回放链接 19讲
https://developer.aliyun.com/live/247100
一、JindoFS 计算加速介绍当前数据湖市场规模正在飞速增长 随着数据规模的增长 基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储 相对于本地存储 其性能受到网络带宽和负载机器的影响 存在性能瓶颈和波动 同时因为远端读取 OSS 单次 IO 比较慢,在列存等一些随机读比较多的场景,性能差距尤其明显(无法预读)。在此背景下,稳定且高性能的数据读取方案已经迫在眉睫。
JindoFS 计算加速JindoFS 通过?Native?Engine? 能够加速存储在?JindoFS / OSS?上面的?ORC / Parquet?文件,?配合?filter?pushdown 在?Spark / Hive / Presto?上明显的提升查询速度。
JindoFS 计算加速架构 TPCDS 5T 测试TPCDS 5T 规模的 Spark 测试 使用 JindoFS 计算加速方案 平均 query 查询性能整体上较 Spark parquet 的方案提升22.9%( GeoMean) 总时间缩短从8158秒缩短到7309秒 下降12%
参考文章
tpcds 5t 查询性能报告 https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/comparisons/jindotable_native_vs_spark_parquet.md
spark 查询:
JindoFS 查询加速 :
结论 下推 filter 之后读取相同数据量时间缩短近一倍
Spark 使用 JindoFS 计算加速读取 Parquet 数据
前提已创建 EMR-3.35.0 及后续版本或 EMR-4.9.0 及后续版本 且 Parquet 文件已存放至JindoFS 或 OSS
Spark 使用 JindoFS 计算加速添加配置 spark.sql.extensions com.aliyun.emr.sql.JindoTableExtension
参考文章
计算加速使用文档 https://help.aliyun.com/document_detail/213329.html?spm a2c4g.11186623.6.1123.5d04196bvr9MzP
?点击回放链接 直接观看第19讲视频回放 获取讲师实例讲解
? ?https://developer.aliyun.com/live/247100
?Github链接
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题 欢迎扫码加入钉钉交流群
案例背景 抗击疫情如救水火,必须与时间赛跑!1月29日,浙江省卫生健康委员会确...
云主机其实可以简单的理解成是 VPS主机 的升级版,但它与VPS在实现技术上有所不...
域名 仲裁这种事,每个域名持有人都不愿意碰到,但WIPO组织每年都有不少域名UDRP...
香港服务器哪个好用?好用的香港服务器推荐 TOP云 ,TOP云香港服务器提供全年365...
一、前言 二、什么是脚手架呢? 三、谁提供了脚手架? 1、Spring 官网脚手架 2、...
哈喽各位同学们大家好呀 小编今天带着开发者学院中课程“Java Spring Cloud开发...
1. 接口描述 接口请求域名: cvm.tencentcloudapi.com 。 本接口 (DescribeInsta...
深圳燃气智慧化建设取得阶段性进展。1月12日,深圳燃气与腾讯举办智慧协同办公平...
越来越多的企业在2020年将其业务迁移到了云平台,这些企业或者比以往迁移更多的...
不少人有五年的 JavaScript 经验,但实际上可能只是一年的经验重复用了五次而已...