主题 云上计算云下数据 HDFS 缓存加速
讲师 抚月 阿里巴巴计算平台事业部 开源大数据平台 技术专家
内容框架
背景介绍功能介绍使用方法实操演示直播回放链接 15讲
https://developer.aliyun.com/live/246996
一、背景介绍问题和挑战传统的大数据服务 通常是自己部署一套 Hive、Spark、HDFS 在线下的 IDC 机房。随着云计算越来越成熟 带来弹性扩容 运维方便 节省成本等诸多优点 越来越多企业开始将大数据平台搬到云上。首先他们会将 Hive、Spark 等计算服务搬到云上 在云上执行计算。云下 IDC 的 HDFS 集群存在历史数据 有些客户存在敏感数据 倾向于继续保留于云下 或者因历史原因保留在其他云厂商上 而 HDFS 集群数据搬到云上需要时间 这时候就会涉及到跨机房/跨云访问 HDFS 数据。
云上访问云下 HDFS 数据存在以下问题
集群之间存在网络延时和带宽限制作业突发流量 核心集群磁盘/网络被打满为解决以上问题 必须引入 HDFS 缓存加速。
二、功能介绍在计算集群上部署一套 jindofs jindofs 具有分布式缓存的能力
架构介绍
Jindo Namespace Service JindoFS 元数据管理以及 Storage 服务的管理Jindo Storage Service 用户数据的管理包含本地数据的管理和 OSS 上数据的管理Jindo SDK 客户端 所有上层计算引擎通过 JindoFS SDK 提供的客户端访问 JindoFS 文件系统 从而实现对后端存储实现缓存加速? ? ?计算服务通过 Jindo SDK 访问数据 Jindo SDK 从 Jindo Namespace Service 查询缓存位置信息 然后向集群中的 Jindo Storage Service 读取缓存数据 如果命中缓存直接返回 如果没有命中缓存 则从 OSS 读取数据 并将缓存写入 Jindo Storage Service 供下次使用。
三、使用方法部署缓存服务下载最新 Release包 b2smartdata-x.x.x.tar.gz 解压并部署到集群所有节点上修改配置文件 conf/bigboot.cfg?
修改 sbin/nodes 配置所有 storage service 的节点列表启动所有服务 ./sbin/start-service.sh参考网址
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md
cp ./jindofs-sdk-*.jar HADOOP_HOME /share/hadoop/hdfs/lib/jindofs-sdk.jar
将 namespace 地址配置到 Hadoop 的 core-site.xml 中。?
通过 JindoFS 加速访问 HDFS我们通过jfs:// namespace / 路径访问 跟直接访问远端HDFS路径得到一样的数 据 并且获得了加速效果。
?
?
四、实操演示相关资源
https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_download.md
JindoFS 缓存服务https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md
?点击回放链接 直接观看第15讲视频回放 获取讲师实例讲解
https://developer.aliyun.com/live/246996
?Github链接
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题 欢迎扫码加入钉钉交流群
近几年,互联网行业蓬勃发展,在互联网浪潮的冲击下,互联网创业已成为一种比较...
TIOBE 公布了 2021 年 3 月的编程语言排行榜。 本月 TIOBE 指数没有什么有趣的变...
前言 统计科学家使用交互式的统计工具(比如R)来回答数据中的问题,获得全景的认...
本文转载自公众号读芯术(ID:AI_Discovery)。 这一刻你正在应对什么挑战?这位前...
想了解更多内容,请访问: 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...
基本介绍 给定 n 个权值作为 n 个叶子节点,构造一颗二叉树,若该树的带权路径长...
溢价 域名 的续费价格如何?通常来说,因为溢价域名的价值高于普通域名,所以溢...
背景 我们知道 如果在Kubernetes中支持GPU设备调度 需要做如下的工作 节点上安装...
在Python开发过程中,我们难免会遇到多重条件判断的情况的情况,此时除了用很多...
本文转载自微信公众号「bugstack虫洞栈」,作者小傅哥 。转载本文请联系bugstack...