主题 Spark 访问 OSS 透明缓存加速
内容框架
JIndoFS 缓存模式简介Spark 访问 OSS 的缓存加速缓存效果实操演示直播回放链接 12讲
https://developer.aliyun.com/live/246923
架构介绍
Jindo Namespace Service JindoFS 元数据管理以及 Storage 服务的管理Jindo Storage Service 用户数据的管理包含本地数据的管理和OSS上数据的管理Jindo SDK 客户端 所有上层计算引擎通过JindoFS SDK提供的客户端访问JindoFS文件系统 从而实现对后端存储实现缓存加速二、Spark 访问 OSS 的缓存加速部署缓存服务?
修改 sbin/nodes 配置所有storage service的节点列表启动所有服务 ./sbin/start-service.sh参考网址
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md
部署JIndo SDKcpjindofs-sdk-${version}.jar $SPARK_HOME/jars/
配置 JindoFS 实现类 将JindoFS 实现类配置到Hadoop的core-site.xml中配置OSS Access Key将OSS的Access Key、Access Key Secret、Endpoint等预先配置在Hadoop的core-site.xml中。
配置客户端连接缓存服务
客户端通过环境变量 B2SDK_CONF_DIR 定位并加载配置文件 bigboot.cfg
export B2SDK_CONF_DIR /path/to/sdk/conf
在配置目录下添加bigboot.cfg配置文件?client.namespace.rpc.address :8101
?jfs.cache.data-cache.enable true
?完成以上配置之后 启动的 Spark 任务即可访问OSS
任务读取OSS上的数据后 会自动缓存到JindoFS缓存系统中 后续访问相同的数据就能够命中缓存
三、缓存效果缓存性能对比
基于TPC-DS对缓存模式进行性能测评
选择8个具有IO相对较高的SQL查询进行测试
结果如下
图解
蓝色为启用缓存执行时间 橙色为关闭缓存 用纯粹SDK方式访问OSS所用时间
可见执行时间得到近50%的提升 性能提升效果明显
详见 《JindoFS 缓存系统 Cache 模式 性能比较》
参考网址
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/comparisons/jindofs_cache_vs_no_cache.md
?点击回放链接 直接观看第12讲视频回放 获取讲师实例讲解
https://developer.aliyun.com/live/246923
?Github链接
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题 欢迎扫码加入钉钉交流群
如何使用 VNC 登录云服务器? VNC 登录是腾讯云为用户提供的一种通过 Web 浏览器...
对于访问量大的网站,视频直播,电商以及游戏等平台,如果采用传统的cdn的话,网...
本文转载自微信公众号「JAVA前线」,作者IT徐胖子 。转载本文请联系JAVA前线公众...
腾讯云日志服务CLS举办的 日志服务CLS体验征文活动 发起后,吸引了许多云+社区作...
作者 | 高文俊 来源| 阿里巴巴云原生公众号 ? 简介 OpenYurt 是由阿里云开源的...
随着业务对持续性要求越来越高,云上不少企业对跨AZ或多地域的容灾建设有强烈的...
如果要问最近几年,IT行业哪个技术方向最火?一定属于ABC,即AI + Big Data + Clo...
怎么申请新浪免费 企业邮箱 ?目前市面上很多号称免费企业 邮箱 的服务商,基本...
开发 小程序 怎么收费?现在很多企业/商家纷纷加入小程序阵营,目前使用比较多且...
操作场景 标签是弹性云服务器的标识。为弹性云服务器添加标签,可以方便用户识别...