当前位置:主页 > 查看内容

数据湖实操讲解【JindoFS 缓存加速】第十五讲:云上计算云下数据

发布时间:2021-07-02 00:00| 位朋友查看

简介:本期导读 【JindoFS 缓存加速】第十五讲 主题 云上计算云下数据 HDFS 缓存加速 讲师 抚月 阿里巴巴计算平台事业部 开源大数据平台 技术专家 内容框架 背景介绍功能介绍使用方法实操演示 直播回放链接 15讲 https://developer.aliyun.com/live/246996 一、背……
本期导读 【JindoFS 缓存加速】第十五讲


主题 云上计算云下数据 HDFS 缓存加速


讲师 抚月 阿里巴巴计算平台事业部 开源大数据平台 技术专家


内容框架

背景介绍功能介绍使用方法实操演示


直播回放链接 15讲

https://developer.aliyun.com/live/246996

一、背景介绍问题和挑战

传统的大数据服务 通常是自己部署一套 Hive、Spark、HDFS 在线下的 IDC 机房。随着云计算越来越成熟 带来弹性扩容 运维方便 节省成本等诸多优点 越来越多企业开始将大数据平台搬到云上。首先他们会将 Hive、Spark 等计算服务搬到云上 在云上执行计算。云下 IDC 的 HDFS 集群存在历史数据 有些客户存在敏感数据 倾向于继续保留于云下 或者因历史原因保留在其他云厂商上 而 HDFS 集群数据搬到云上需要时间 这时候就会涉及到跨机房/跨云访问 HDFS 数据。

云上访问云下 HDFS 数据存在以下问题

集群之间存在网络延时和带宽限制作业突发流量 核心集群磁盘/网络被打满

为解决以上问题 必须引入 HDFS 缓存加速。

image.png

二、功能介绍


在计算集群上部署一套 jindofs jindofs 具有分布式缓存的能力

利用计算集群闲置资源(云盘/本地盘/内存)进行数据缓存 加速计算进行流量控制 避免计算集群占用核心集群过多带宽

image.png

JindoFS 缓存模式架构

image.png

架构介绍

Jindo Namespace Service JindoFS 元数据管理以及 Storage 服务的管理Jindo Storage Service 用户数据的管理包含本地数据的管理和 OSS 上数据的管理Jindo SDK 客户端 所有上层计算引擎通过 JindoFS SDK 提供的客户端访问 JindoFS 文件系统 从而实现对后端存储实现缓存加速


? ? ?计算服务通过 Jindo SDK 访问数据 Jindo SDK 从 Jindo Namespace Service 查询缓存位置信息 然后向集群中的 Jindo Storage Service 读取缓存数据 如果命中缓存直接返回 如果没有命中缓存 则从 OSS 读取数据 并将缓存写入 Jindo Storage Service 供下次使用。

三、使用方法部署缓存服务下载最新 Release包 b2smartdata-x.x.x.tar.gz 解压并部署到集群所有节点上修改配置文件 conf/bigboot.cfg

? image.png

修改 sbin/nodes 配置所有 storage service 的节点列表启动所有服务 ./sbin/start-service.sh


参考网址

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md


部署Jindo SDK
安装 jar 包 下载最新的 jar 包 jindofs-sdk-x.x.x.jar 在所有 Hadoop 节点安装。

cp ./jindofs-sdk-*.jar HADOOP_HOME /share/hadoop/hdfs/lib/jindofs-sdk.jar

将 namespace 地址配置到 Hadoop 的 core-site.xml 中。

? image.png

通过 JindoFS 加速访问 HDFS

我们通过jfs:// namespace / 路径访问 跟直接访问远端HDFS路径得到一样的数 据 并且获得了加速效果。

? image.png

? image.png

四、实操演示


相关资源

JindoFS SDK

https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_download.md

JindoFS 缓存服务

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md


?点击回放链接 直接观看第15讲视频回放 获取讲师实例讲解

https://developer.aliyun.com/live/246996



?Github链接

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题 欢迎扫码加入钉钉交流群

69c0a02cc68742fca5d49d92413dc67a.png


本文转自网络,原文链接:https://developer.aliyun.com/article/785023
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐