当前位置：主页 > 查看内容

数据湖实操讲解【 JindoTable 计算加速】第二十讲：Spark 对 OSS

发布时间：2021-07-23 00:00| 有位朋友查看

简介：本期导读【JindoTable 计算加速】第二十讲主题 Spark 对 OSS 上的 ORC 数据进行查询加速uid JindoFS 对 OSS 上数据进行训练加速讲师健身阿里巴巴计算平台事业部 EMR 技术专家内容框架 ORC 简介JindoFS 列存加速性能对比演示直播回放链接 20讲 https:/……

本期导读【JindoTable 计算加速】第二十讲

主题 Spark 对 OSS 上的 ORC 数据进行查询加速uid JindoFS 对 OSS 上数据进行训练加速

讲师健身阿里巴巴计算平台事业部 EMR 技术专家

内容框架

ORC 简介JindoFS 列存加速性能对比演示

直播回放链接 20讲

https://developer.aliyun.com/live/247100

一、ORC 简介
ORC Hadoop 生态的列存系统 ? ? ?来自 Hive 的列式存储支持列裁剪包含类型信息自描述支持 Encoding/压缩

Spark 与 ORCSpark Hive 表

? CREATE TABLE tablename … STORED AS ORC;

? 使用 Hive ORC

? spark.sql.hive.convertMetastoreOrc

Spark Datasource 表

? CREATE TABLE tablename … USING ORC;

? 使用Apache ORC

二、JindoFS 列存加速痛点
对象存储水平扩展能力强但请求延时高本地盘/云盘带宽有限中间数据越少越好IO 需要与 shuffle 数据竞争网络资源计算越快越好

JindoFS 列存加速JindoTable Native Engine

? 高速读取

? 查询计划下推高速计算

? 表/分区/列级别的数据缓存消除带宽瓶颈和性能波动

支持 JindoFS/OSS支持 ORC / Parquet 格式高效的预计算规划可插拔兼容开源用法命令行参数

? --conf spark.sql.extensions com.aliyun.emr.sql.JindoTableExtension

配置到 spark-defaults

? spark.sql.extensions???????com.aliyun.emr.sql.JindoTableExtension

Spark Hive 表需要确保 spark.sql.hive.convertMetastoreOrc trueEMR-3.35/4.9/5.2 之后的版本加速原理Native Engine 直接把数据排在内存中供上层引擎使用Spark 通过 Unsafe 直接访问数据无需拷贝数据
Native Engine 异步读取文件

? 数据读取不等待上层引擎消费性能更高

高并发

? 文件级别并发

? 列级别并发

Native 实现算子相比 Java 性能更优加速架构一套 Native Engine 支持不同引擎AliORC 提供 ORC 支持Native Engine 运行在 executor/Presto Worker 中客户端

三、性能对比Spark 性能对比 – 配置

Spark 性能对比 – 结果端到端总时间缩短23.6%

四、演示

配置 Spark读取鸢尾花数据集以 ORC 格式写入 OSS 路径从 OSS 查询鸢尾花数据集
相关文档链接 Jindodata 相关文档

https://github.com/aliyun/alibabacloud-jindodata

计算加速使用文档:

https://help.aliyun.com/document_detail/213329.html

?点击回放链接直接观看第20讲视频回放获取讲师实例讲解

? ?https://developer.aliyun.com/live/247100

?Github链接

https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题欢迎扫码加入钉钉交流群

本文转自网络，原文链接：https://developer.aliyun.com/article/785630
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：产品解读 | 敏捷版云原生PaaS场景 下一篇：没有了

随机推荐

稳定性之故障应急处理流程

作者 | 金喜来源 | 阿里技术公众号一概述尽管我们可以通过稳定性体系建设，...
别找了，这可能是全网最全的鸿蒙（OpenHa

想了解更多内容，请访问： 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...
2020年全国互联网协会工作交流会在京召开

10月20日，2020年全国互联网协会工作交流会在北京顺利召开。中国互联网协会副理...
弹性云服务器存在跨区卷时如何制作整机镜

使用弹性云服务器制作Windows操作系统整机镜像时，不允许弹性云服务器存在跨...
企业借助云平台“一站式”容灾建设？

随着业务对持续性要求越来越高，云上不少企业对跨AZ或多地域的容灾建设有强烈的...
RISC-V 大赛简评 RVB2601 板卡

RVB2601 板子整体干净利落不过有些地方还可以做的更好纯属个人观点。板子丝印...
SAP S/4HANA Cloud 中国本地化基于银行电

众所周知，在中国本地化收款和银企对账的流程中，银行电子回单记载了企业网上收...
switch是如何支持String的？为什么不支持

我们知道 Java Switch 支持byte、short、int 类型，在 JDK 1.5 时，支持了枚举类...
升级域名bbc.com，英国广播公司BBC：简化

所有的英语学习者对BBC都不会陌生，BBC在世界各个角落24小时用英文播报新闻，英...
Hive数据倾斜案例讲解

实际搞过离线数据处理的同学都知道，Hive SQL 的各种优化方法都是和数据倾斜密切...

数据湖实操讲解【 JindoTable 计算加速】第二十讲：Spark 对 OSS

推荐图文

Serverless：这真的是未来吗？（一）

初识智能化测试

阿里云发布计算巢ISV招募计划，金蝶、VMware、蓝凌

快，好，省 - HBR使用OSS清单进行OSS备份

域名购买需要多少钱

WiFi信号不理想怎么办？这几个方法也许会帮到你？

随机推荐

稳定性之故障应急处理流程

别找了，这可能是全网最全的鸿蒙（OpenHa

2020年全国互联网协会工作交流会在京召开

弹性云服务器存在跨区卷时如何制作整机镜

企业借助云平台“一站式”容灾建设？

RISC-V 大赛简评 RVB2601 板卡

SAP S/4HANA Cloud 中国本地化基于银行电

switch是如何支持String的？为什么不支持

升级域名bbc.com，英国广播公司BBC：简化

Hive数据倾斜案例讲解

关于我们