当前位置：主页 > 查看内容

分布式文件系统HDFS及其简单使用

发布时间：2021-08-21 00:00| 有位朋友查看

简介：在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。 HDFS HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB),……

在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。

HDFS

HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口。

HDFS是根据谷歌的论文：《The Google File System》进行设计的

HDFS的四个基本组件:HDFS Client、NameNode、DataNode和Secondary NameNode。

Client

Client是客户端。HDFS Client文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。Client 提供一些命令来管理和访问HDFS，比如启动或者关闭HDFS。

NameNode

NameNode就是 master，它是一个主管、管理者。管理 HDFS 元数据(文件路径，文件的大小，文件的名字，文件权限，文件的block切片信息)。

NameNode管理 Block 副本策略：默认 3 个副本，处理客户端读写请求。

DataNode

DataNode就是Slave。NameNode下达命令，DataNode 执行实际的操作。

DataNode存储实际的数据块，执行数据块的读/写操作。定时向namenode汇报block信息。

Secondary NameNode

SecondaryNameNode不是NameNode的备份。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。

辅助 NameNode，分担其工作量。在紧急情况下，可辅助恢复 NameNode。

副本机制

HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块，这个数据块被称为block，除了最后一个，所有的数据块都是同样大小的。

为了容错，文件的所有block都会有副本。每个文件的数据块大小和副本系数都是可配置的。

在hadoop2 当中, 文件的 block 块大小默认是「128M」(134217728字节)。

如上图所示，一个大小为300M的a.txt上传到HDFS中，需要进行128M的切分，不足128M分为到另一block中。

HDFS基本命令

HDFS 简单使用

根据部署的服务，我们的 HDFS 根目录是 hdfs://192.168.147.128:9820，下面我们尝试在根目录下面创建子目录 user，如下命令所示：

[hadoop@node01 ~]$ hadoop fs -mkdir /user

然后在Hadoop页面打开HDFS。

此时的user文件夹将会看见。

下面将一个大小为300M的文件上传到HDFS的user文件夹中

然后在Hadoop页面看见刚刚上传的文件。

此时被分开了三个block。

点击download，即可下载。

本文转载自网络，原文链接：https://mp.weixin.qq.com/s/E5kGoBc6f3_1B2KWjxa5iw
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：大数据开发：Java线程与进程区别是这样？ 下一篇：没有了

随机推荐

大数据时代来临，未来的商业模式，都将是

1 何为智能化商业时代?先从一个生活中的小事说起，近期我一个朋友准备拍婚纱照，...
TechFlow的前端笔记之H2标签创建副标题

大家好，欢迎来到前端专题。今天是freecodecamp中HTML专题训练的第二篇。背景...
西部数码域名怎么实名认证

TOP云域名怎么实名认证？TOP云的域名实名非常简单，按照以下步骤即可快速完成...
教育行业优质解决方案分享【三个课堂解决

三个课堂解决方案方案架构分为终端层、支撑层、平台层、应用层。其中平台层分为...
新零售行业优质解决方案分享【餐饮行业会

面向餐饮行业，提供全渠道会员管理和营销平台。集成全渠道会员信息、订单信息、...
域名过户哪个网不实名

域名过户哪个网不实名？域名如果涉及到过户，其实相当于交易。只要交易，目前基...
聊聊setState的用法，你会几个？

本文转载自微信公众号「前端UpUp」，作者前端UpUp。转载本文请联系前端UpUp公众...
关机裸金属服务器_裸金属服务器 BMS_用户

操作场景停止服务器，即对裸金属服务器执行关机操作。停止服务器的前提条件是裸...
FAQ - 云命令行

云命令行为工具型产品，辅助您管理在阿里云上的资源或服务。目前免费使用，不收...
域名未实名怎么操作

域名未实名怎么操作？在我国很多域名都是强制要求实名认证的，如果不实名认证，...

分布式文件系统HDFS及其简单使用

HDFS

Client

NameNode

DataNode

Secondary NameNode

副本机制

HDFS基本命令

HDFS 简单使用

推荐图文

【产品】Quick Audience发展及功能演变

KubeVela 上手(1)｜让云端应用交付更加丝滑

云原生网关公测：10分钟完成构建支持最高10万/秒的

再一次实战策略模式，真是太好用了

买.在线域名，送口罩/额温枪

谨慎使用！从入门到精通，一文带你学会Python面向监

随机推荐

大数据时代来临，未来的商业模式，都将是

TechFlow的前端笔记之H2标签创建副标题

西部数码域名怎么实名认证

教育行业优质解决方案分享【三个课堂解决

新零售行业优质解决方案分享【餐饮行业会

域名过户哪个网不实名

聊聊setState的用法，你会几个？

关机裸金属服务器_裸金属服务器 BMS_用户

FAQ - 云命令行

域名未实名怎么操作

关于我们