当前位置：主页 > 查看内容

数据湖实操讲解【 JindoTable 计算加速】第十九讲：Spark 对 OSS

发布时间：2021-07-21 00:00| 有位朋友查看

简介：本期导读【JindoTable 计算加速】第十九讲主题 Spark 对 OSS 上的 Parquet 数据进行查询加速uid JindoFS 对 OSS 上数据进行训练加速讲师流影阿里巴巴计算平台事业部 EMR 技术专家内容框架 JindoFS 计算加速介绍使用 JindoFS 计算加速演示直播回放链接……

本期导读【JindoTable 计算加速】第十九讲

主题 Spark 对 OSS 上的 Parquet 数据进行查询加速uid JindoFS 对 OSS 上数据进行训练加速

讲师流影阿里巴巴计算平台事业部 EMR 技术专家

内容框架

JindoFS 计算加速介绍使用 JindoFS 计算加速演示

直播回放链接 19讲

https://developer.aliyun.com/live/247100

一、JindoFS 计算加速介绍
背景介绍

当前数据湖市场规模正在飞速增长随着数据规模的增长基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储相对于本地存储其性能受到网络带宽和负载机器的影响存在性能瓶颈和波动同时因为远端读取 OSS 单次 IO 比较慢,在列存等一些随机读比较多的场景,性能差距尤其明显(无法预读)。在此背景下,稳定且高性能的数据读取方案已经迫在眉睫。

JindoFS 计算加速

JindoFS 通过?Native?Engine? 能够加速存储在?JindoFS / OSS?上面的?ORC / Parquet?文件,?配合?filter?pushdown 在?Spark / Hive / Presto?上明显的提升查询速度。

JindoFS 计算加速架构

TPCDS 5T 测试

TPCDS 5T 规模的 Spark 测试使用 JindoFS 计算加速方案平均 query 查询性能整体上较 Spark parquet 的方案提升22.9%( GeoMean) 总时间缩短从8158秒缩短到7309秒下降12%

参考文章

tpcds 5t 查询性能报告 https://github.com /aliyun /alibabacloud-jindodata /blob/master/docs/comparisons/jindotable_native_vs_spark_parquet.md

q96 查询对比

spark 查询:

JindoFS 查询加速 :

结论下推 filter 之后读取相同数据量时间缩短近一倍

二、使用 JindoFS 计算加速

Spark 使用 JindoFS 计算加速读取 Parquet 数据

前提

已创建 EMR-3.35.0 及后续版本或 EMR-4.9.0 及后续版本且 Parquet 文件已存放至JindoFS 或 OSS

Spark 使用 JindoFS 计算加速

添加配置 spark.sql.extensions com.aliyun.emr.sql.JindoTableExtension

三、演示
演示内容 Spark 2.4 使用 JindoFS 计算加速 ? ? ?Spark 2.4 任务界面查看计算加速相关信息

参考文章

计算加速使用文档 https://help.aliyun.com/document_detail/213329.html?spm a2c4g.11186623.6.1123.5d04196bvr9MzP

?点击回放链接直接观看第19讲视频回放获取讲师实例讲解

? ?https://developer.aliyun.com/live/247100

?Github链接

https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题欢迎扫码加入钉钉交流群

本文转自网络，原文链接：https://developer.aliyun.com/article/785571
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：linux 安装云监控 下一篇：没有了

随机推荐

浙江省卫健委：宜搭免费搭建新冠肺炎疫情

案例背景抗击疫情如救水火，必须与时间赛跑！1月29日，浙江省卫生健康委员会确...
香港免备案vps和云主机哪个好

云主机其实可以简单的理解成是 VPS主机的升级版，但它与VPS在实现技术上有所不...
欲仲裁夺取“黑鹰”域名？北美职业冰球队

域名仲裁这种事，每个域名持有人都不愿意碰到，但WIPO组织每年都有不少域名UDRP...
香港服务器哪个好用

香港服务器哪个好用？好用的香港服务器推荐 TOP云，TOP云香港服务器提供全年365...
不重复造轮子都是骗小孩的，教你手撸 Spr

一、前言二、什么是脚手架呢？三、谁提供了脚手架？ 1、Spring 官网脚手架 2、...
开发者学堂课程干货总结——Spring Cloud

哈喽各位同学们大家好呀小编今天带着开发者学院中课程“Java Spring Cloud开发...
云服务器查看实例列表 - API 文档

1. 接口描述接口请求域名： cvm.tencentcloudapi.com 。本接口 (DescribeInsta...
深圳燃气与腾讯合作升级，协同办公平台已

深圳燃气智慧化建设取得阶段性进展。1月12日，深圳燃气与腾讯举办智慧协同办公平...
企业在开始云计算迁移之旅时应该考虑什么

越来越多的企业在2020年将其业务迁移到了云平台，这些企业或者比以往迁移更多的...
写了这么多年 JavaScript ，竟然还不知道

不少人有五年的 JavaScript 经验，但实际上可能只是一年的经验重复用了五次而已...

数据湖实操讲解【 JindoTable 计算加速】第十九讲：Spark 对 OSS

推荐图文

如何将OVF、OVA文件导入云平台？_镜像服务 IMS_常见

弹性云服务器配置的邮件无法正常发送_弹性云服务器

好玩的心情短语：学校你得到了我的肉体，可你永远得

计费概述 - 云服务器 ECS

从Service到WorkManager

网站打开速度慢该怎么解决

随机推荐

浙江省卫健委：宜搭免费搭建新冠肺炎疫情

香港免备案vps和云主机哪个好

欲仲裁夺取“黑鹰”域名？北美职业冰球队

香港服务器哪个好用

不重复造轮子都是骗小孩的，教你手撸 Spr

开发者学堂课程干货总结——Spring Cloud

云服务器查看实例列表 - API 文档

深圳燃气与腾讯合作升级，协同办公平台已

企业在开始云计算迁移之旅时应该考虑什么

写了这么多年 JavaScript ，竟然还不知道

关于我们