主题 Spark 对 OSS 上的 ORC 数据进行查询加速uid JindoFS 对 OSS 上数据进行训练加速
内容框架
ORC 简介JindoFS 列存加速性能对比演示直播回放链接 20讲
https://developer.aliyun.com/live/247100
一、ORC 简介? CREATE TABLE tablename … STORED AS ORC;
? 使用 Hive ORC
? spark.sql.hive.convertMetastoreOrc
? CREATE TABLE tablename … USING ORC;
? 使用Apache ORC
? 高速读取
? 查询计划下推 高速计算
? 表/分区/列级别的数据缓存 消除带宽瓶颈和性能波动
支持 JindoFS/OSS支持 ORC / Parquet 格式高效的预计算 规划 可插拔 兼容开源用法命令行参数? --conf spark.sql.extensions com.aliyun.emr.sql.JindoTableExtension
配置到 spark-defaults? spark.sql.extensions???????com.aliyun.emr.sql.JindoTableExtension
Spark Hive 表需要确保 spark.sql.hive.convertMetastoreOrc trueEMR-3.35/4.9/5.2 之后的版本加速原理Native Engine 直接把数据排在内存中供上层引擎使用Spark 通过 Unsafe 直接访问数据 无需拷贝数据? 数据读取不等待上层引擎消费 性能更高
高并发? 文件级别并发
? 列级别并发
Native 实现算子相比 Java 性能更优加速架构一套 Native Engine 支持不同引擎AliORC 提供 ORC 支持Native Engine 运行在 executor/Presto Worker 中 客户端 三、性能对比Spark 性能对比 – 配置Spark 性能对比 – 结果端到端总时间缩短23.6%四、演示https://github.com/aliyun/alibabacloud-jindodata
计算加速使用文档:https://help.aliyun.com/document_detail/213329.html
?点击回放链接 直接观看第20讲视频回放 获取讲师实例讲解
? ?https://developer.aliyun.com/live/247100
?Github链接
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题 欢迎扫码加入钉钉交流群
作者 | 金喜 来源 | 阿里技术公众号 一 概述 尽管我们可以通过稳定性体系建设,...
想了解更多内容,请访问: 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...
10月20日,2020年全国互联网协会工作交流会在北京顺利召开。中国互联网协会副理...
使用 弹性云服务器 制作Windows操作系统整机镜像时,不允许 弹性云服务器 存在跨...
随着业务对持续性要求越来越高,云上不少企业对跨AZ或多地域的容灾建设有强烈的...
RVB2601 板子整体干净利落 不过有些地方还可以做的更好 纯属个人观点。 板子丝印...
众所周知,在中国本地化收款和银企对账的流程中,银行电子回单记载了企业网上收...
我们知道 Java Switch 支持byte、short、int 类型,在 JDK 1.5 时,支持了枚举类...
所有的英语学习者对BBC都不会陌生,BBC在世界各个角落24小时用英文播报新闻,英...
实际搞过离线数据处理的同学都知道,Hive SQL 的各种优化方法都是和数据倾斜密切...