当前位置:主页 > 查看内容

数据湖实操讲解【OSS 访问加速】第十讲:Impala 如何高效查询 OS

发布时间:2021-06-10 00:00| 位朋友查看

简介:本期导读 【OSS 访问加速】第十讲 主题 Impala?如何高效查询 OSS 数据 讲师 流影 阿里巴巴计算平台事业部 EMR 技术专家 内容框架 背景介绍Impala 使用 JindoSDK具体演示 直播回放链接 9/10讲 https://developer.aliyun.com/live/246875 一、背景介绍 Apache……
本期导读 【OSS 访问加速】第十讲


主题 Impala?如何高效查询 OSS 数据


讲师 流影 阿里巴巴计算平台事业部 EMR 技术专家


内容框架

背景介绍Impala 使用 JindoSDK具体演示


直播回放链接 9/10讲

https://developer.aliyun.com/live/246875



一、背景介绍


Apache Impala 介绍

能够对存储在 Hadoop 集群的 PB 级数据进行快速 SQL 查询分析的分布式 MPP 查询框架

image.png

使用 JindoSDK 高效查询 OSS 数据JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端 为阿里云 OSS ?提供高度优化的 Hadoop FileSystem 实现。
通过 JindoFS SDK 可以在 Hadoop 环境中直接使用 oss://bucket/?的方式访问阿里云 OSS 上的内容。


二、Impala 使用 JindoSDK1、安装 jar 包下载最新的jar包 jindofs-sdk-x.x.x.jar 将 sdk 包安装到 Impala 的 lib 下


下载链接

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md


cp jindofs-sdk-${version}.jar $IMPALA_HOME/lib/

2、配置 JindoFSOSS 实现类配置 IMPALA 使用的 core-site.xml 配置 JindoFS SDK 访问OSS

image.png


3、配置 OSS Access Key将 OSS 的Access Key、Access Key?Secret、Endpoint 等预先配置在 Hadoop 的 core-site.xml 中

image.png


4、使用 JindoFS SDK 访问 OSS

?image.png


三、具体演示


演示逻辑


下载 JindoFS SDK
将 jar 包拷贝到 $IMPALA_HOME/lib/
修改 JindoSDK 配置
演示 Impala 加载和查询 OSS 表


?点击回放链接 直接观看第9/10讲视频回放 获取讲师实例讲解

https://developer.aliyun.com/live/246875


相关资源


下载 JindoFS SDK
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md


Impala 使用 JindoSDK
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/impala/jindosdk_on_impala.md


?Github链接

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题 欢迎扫码加入钉钉交流群

image.png




本文转自网络,原文链接:https://developer.aliyun.com/article/784640
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!
上一篇:深信服积极响应云计算服务安全评估工作 下一篇:没有了

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐