当前位置:主页 > 查看内容

数据湖实操讲解【OSS 访问加速】第六讲:Hadoop/Spark 访问 OSS

发布时间:2021-05-26 00:00| 位朋友查看

简介:本期导读 【OSS 访问加速】第六讲 主题 Hadoop/Spark 访问 OSS 加速 讲师 流影 阿里巴巴计算平台事业部 EMR 技术专家 内容框架 JindoFS SDK 介绍 Hadoop 使用 JindoFS SDK Spark?使用?JindoFS SDK 演示 直播回放链接 5/6讲 https://developer.aliyun.com/liv……
本期导读 【OSS 访问加速】第六讲


主题 Hadoop/Spark 访问 OSS 加速


讲师 流影 阿里巴巴计算平台事业部 EMR 技术专家


内容框架

JindoFS SDK 介绍
Hadoop 使用 JindoFS SDK
Spark?使用?JindoFS SDK
演示


直播回放链接 5/6讲

https://developer.aliyun.com/live/246811



一、JindoFS SDK 介绍


JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端 为阿里云 OSS 提供高度优化的 HadoopFileSystem 实现。
通过 JindoFS SDK 可以在 Hadoop 环境中直接使用 oss://bucket/?的方式访问阿里云 OSS 上的内容。
例如

image.png


为什么使用 JindoFS SDK

优异的性能表现 和开源版本的 Hadoop-OSS-SDK 进行对比 各项操作性能均显著好于 Hadoop-OSS-SDK
良好的兼容性 兼容市面上大部分 Hadoop 版本 JindoFS SDK 在 Hadoop2.3 及以上的版本上验证通过
专业团队维护 阿里云 EMRHadoop 团队维护 JindoFS Hadoop SDK 在阿里云 EMR等产品中广泛使用
功能更新快 及时跟进 OSS 最新特性和优化 版本更新及时。



二、Hadoop 使用 JindoFS SDK 访问 OSS


安装 jar 包

下载最新的jar包 jindofs-sdk-x.x.x.jar 将sdk包安装到hadoop的classpath下。

image.png


配置 JindoFSOSS 实现类

将 JindoFS OSS 实现类配置到Hadoop的core-site.xml中。

image.png


配置 OSSAccess Key

将OSS的AccessKey、Access Key Secret、Endpoint等预先配置在Hadoop的core-site.xml中。

image.png


使用 JindoFSSDK 访问 OSS

用HadoopShell访问OSS 下面列举了几个常用的命令。

put操作 hadoop fs -put path oss:// bucket /??
ls 操作 hadoop fs -ls oss:// bucket /
mkdir操作 hadoopfs -mkdiross:// bucket / path
rm操作 hadoop fs rm oss:// bucket / path


三、Spark 使用?JindoFS SDK 访问 OSS


在 Spark CLASSPATH 中添加 JindoFS SDK

下载最新的jar包 jindofs-sdk-x.x.x.jar 将sdk包安装到 Spark的classpath下。
cp jindofs-sdk-${version}.jar $SPARK_HOME/jars/

配置 JindoFS SDK

全局配置 参考 Hadoop 配置

任务级别配置 spark-submit --conf spark.hadoop.fs.AbstractFileSystem.oss.impl com.aliyun.emr.fs.oss.OSS --conf spark.hadoop.fs.oss.impl com.aliyun.emr.fs.oss.JindoOssFileSystem --conf spark.hadoop.fs.jfs.cache.oss.accessKeyId xxx --conf spark.hadoop.fs.jfs.cache.oss.accessKeySecret xxx --conf spark.hadoop.fs.jfs.cache.oss.endpoint oss-cn-xxx.aliyuncs.com

访问 OSS

完成配置之后,启动的 Spark 任务访问 OSS 默认就使用 JindoSDK 访问



四、演示


下载JindoFSSDK
将jar包拷贝到hadoopclasspath
修改配置
演示hadoop 命令
将jar包拷贝到Spark${SPARK_HOME}/jars
演示Spark 访问 OSS


直接观看第三课 5/6讲 视频回放 获取实例讲解~

https://developer.aliyun.com/live/246811


相关资源

1.下载JindoFS SDK

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md

2.Hadoop 使用 JindoSDK

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_how_to_hadoop.md

3.Spark 使用 JindoSDK

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/spark/jindosdk_on_spark.md




?Github链接

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题 欢迎扫码加入钉钉交流群


1835a71d3367446db32f7169e4ae62e3.jpg




本文转自网络,原文链接:https://developer.aliyun.com/article/784332
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐