当前位置：主页 > 查看内容

HDFS是如何设计架构的？

发布时间：2021-04-20 00:00| 有位朋友查看

简介：前言 Hadoop到目前为止发展已经有10余年，版本经过无数次的更新迭代，目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。一、Hadoop 简介 Hadoop版本刚出来的时候是为了解决两个问题：一是海量数据如何存储的问题，一个是海量数……

前言

Hadoop到目前为止发展已经有10余年，版本经过无数次的更新迭代，目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。

一、Hadoop 简介

Hadoop版本刚出来的时候是为了解决两个问题：一是海量数据如何存储的问题，一个是海量数据如何计算的问题。Hadoop的核心设计就是HDFS和 Mapreduce.HDFS解决了海量数据如何存储的问题， Mapreduce解决了海量数据如何计算的问题。HDFS的全称：Hadoop Distributed File System。

二、分布式文件系统

图片 HDFS其实就可以理解为一个分布式文件系统，可以看如图1所示有4个服务器是不是都有他自己的文件系统都可以进行存储数据，假设每个服务器的存储空间存储10G的数据。假设数据量很小的时候存储10G的数据还是ok的当数据量大于服务器的存储空间时是不是单个服务器就没法存储了。我们是不是可以在服务器中部署一个Hadoop这样就能构建出一个集群(超级大电脑)。这样就存储 4*10=40G的数据量，这样我们面向用户时是不是只有一台超级大的电脑相当于一个分布式文件系统。

HDFS是一个主从的架构、主节点只有一个NemeNode。从节点有多个DataNode。

三、HDFS 架构

图片假设我们这里有5台服务器每台服务器都部署上Hadoop，我们随便选择一台服务器部署上NameNode剩下服务器部署上DataNode。

客户端上传文件时假设文件大小为129MHDFS默认切分的大小为128M这时就会产生出2个blkNameNode去通知DataNode上传文件(这里有一定的策略)，我们就假设就将这几个文件分别存储在4个服务器上。为什们要进行分别存储在，假设DataNode服务器有一天突然挂掉了我们是不是还可通过DataNode4或2和3进行读取数据，这样是不是就防止数据丢失。

NameNode

管理元数据信息(文件目录树)：文件与Block块，Block块与DataNode主机关系
NameNode为快速响应用户操作，所以把元数据信息加载到内存里

DataNode

存储数据，把上传的数据划分固定大小文件块(Block)在Hadoop2.73之前是64M之后改为了128M
为了保证数据安全，每个文件默认都是三个副本

SecondaryNamenode

周期性的到NameNode节点拉取Edtis和fsimage文件，将这两个文件加入到内存进行然后将这两个文件加入到内存中进行合并产生新的fsimage发送给NameNode。

四、HDFS写入数据流程

客户端会带着文件路径向NameNode发送写入请求通过 RPC 与 NameNode 建立通讯， NameNode 检查目标文件，返回是否可以上传;
Client 请求第一个 block 该传输到哪些 DataNode 服务器上;
NameNode 根据副本数量和副本放置策略进行节点分配，返回DataNode节点，如：A，B，C
Client 请求A节点建立pipeline管道，A收到请求会继续调用B，然后B调用C，将整个pipeline管道建立完成后,逐级返回消息到Client;
Client收到A返回的消息之后开始往A上传第一个block块，block块被切分成64K的packet包不断的在pepiline管道里传递，从A到B，B到C进行复制存储
当一个 block块传输完成之后，Client 再次请求 NameNode 上传第二个block块的存储节点，不断往复存储
当所有block块传输完成之后，Client调用FSDataOutputSteam的close方法关闭输出流，最后调用FileSystem的complete方法告知NameNode数据写入成功

五、HDFS读取数据流程

客户端会先带着读取路径向NameNode发送读取请求，通过 RPC 与 NameNode 建立通讯,NameNode检查目标文件，来确定请求文件 block块的位置信息
NameNode会视情况返回文件的部分或者全部block块列表，对于每个block块，NameNode 都会返回含有该 block副本的 DataNode 地址
这些返回的 DataNode 地址，会按照集群拓扑结构得出 DataNode 与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前;心跳机制中超时汇报的 DN 状态为 STALE，这样的排靠后;
Client 选取排序靠前的 DataNode 调用FSDataInputSteam的read方法来读取 block块数据，如果客户端本身就是DataNode,那么将从本地直接获取block块数据
当读完一批的 block块后，若文件读取还没有结束，客户端会继续向NameNode 获取下一批的 block 列表，继续读取
所有block块读取完成后，Client调用FSDataInputStream.close()方法，关闭输入流，并将读取来所有的 block块合并成一个完整的最终文件

六、HDFS缺陷

注意：早期版本

单点问题
内存受限

总结

上述给大家讲解了简单的HDFS架构，我在最后面留了一个小问题，我会在下期通过画图的方式给大家讲解，我在这里为大家提供大数据的资料需要的朋友可以去下面GitHub去下载，信自己，努力和汗水总会能得到回报的。我是大数据老哥，我们下期见~~~

本文转载自微信公众号「大数据老哥」，可以通过以下二维码关注。转载本文请联系大数据老哥公众号。

本文转载自网络，原文链接：https://mp.weixin.qq.com/s/I2IEMlMznDuqEnfAdAOofA
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：2021年值得推荐的10款数据可视化工具 下一篇：没有了

随机推荐

Java编程内功-数据结构与算法「赫夫曼树

基本介绍给定 n 个权值作为 n 个叶子节点，构造一颗二叉树，若该树的带权路径长...
大数据透露春节消费新趋势

今年春节黄金周期间，全国零售和餐饮企业销售额首次突破万亿元，根据电商大数据...
融合趋势下基于 Flink Kylin Hudi 湖仓一

本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍 Flin...
聊聊关于常用数据类型一二三

数据分析师的工作中最离不开的就是数据，业务中所有的情况都离不开数据这个载体...
透过数据看本质，细数大数据分析之行业热

随着云计算、大数据和机器学习技术的不断发展，各行各业都开始利用大数据分析技...
社区新上线「文章自荐功能」，欢迎大家体

不少作者跟我们反馈，文章自荐的流程太长了，而且荐完就忘，要不是收到文章上首...
一站式云原生智能告警运维平台——SLS新

前言本篇是SLS新版告警系列宣传与培训的第一篇后续我们会推出20 系列直播与实...
没有小数据哪有大数据，魔方网表数字中台

大数据的时代已经来临了,从媒体到企业,再到各国政府,从咖啡馆,到会议室,人人都在...
深度挖掘用户需求？按这五个步骤做！

有同学问：领导总让我们挖掘用户需求，咋个挖掘法?特别是手头还没什么数据，最多...
如何构建业务数据分析体系

00、BEGIN 提及体系二字，我的脑海里浮现出老板说的对于工作的规划要从全局出...

HDFS是如何设计架构的？

推荐图文

生男生女概率一样吗？为什么中国男性多于女性？

DataWorks 2021-03 产品月刊

亚马逊云科技发布中国业务战略打造中国业务的“三

亚马逊云科技宣布Amazon Lookout for Vision正式可

超搞笑说说：像你这么优雅的人，平时都不拉屎吧！

评审恩仇录——我为什么愿意执行代码评审

随机推荐

Java编程内功-数据结构与算法「赫夫曼树

大数据透露春节消费新趋势

融合趋势下基于 Flink Kylin Hudi 湖仓一

聊聊关于常用数据类型一二三

透过数据看本质，细数大数据分析之行业热

社区新上线「文章自荐功能」，欢迎大家体

一站式云原生智能告警运维平台——SLS新

没有小数据哪有大数据，魔方网表数字中台

深度挖掘用户需求？按这五个步骤做！

如何构建业务数据分析体系

关于我们