这篇文章将为大家详细讲解有关HDFS体系结构及优缺点是什么,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
HDFS体系结构简介及优缺点
体系结构简介
HDFS是一个主/从(Master、Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行CRUD(创建,读取,修改,删除)等操作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和多个DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。客户端通过同NameNode和DataNode的交互访问文件系统。客户端联系NameNode以获取文件的元数据,而真正的文件I/O操作是直接和DataNode进行交互的。
NameNode:
NameNode是整个文件系统的管理节点.
作用:
1、负责管理文件系统的命名空间、集群配置信息和存储块的复制;
2、维护着整个文件系统的文件目录树和文件根目录的元信息和每个文件对应的数据块列表;
3、接收用户的操作请求;
4、管理文件与block之间的关系,block与DataNode之间的关系;
NameNode会将文件系统的Meta-Data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。没有NameNode,文件系统将无法使用。实现上,如果运行NameNode服务的机器毁坏,文件系统上所有的文件将会丢失,因为我们不知道如果根据DataNode的块来重建文件。因此,对NameNode实现容错非常重要,Hadoop为此提供了2种机制:
第一种机制:备份哪些组成文件系统元数据持久状态的文件。Hadoop可以通过配置使NameNode在多个文件系统上保存元数据的持久状态,这些写操作是实时同步的,是原子操作,一般的配置是将持久状态写入本地磁盘的同时,写入一个远程挂载的网络文件系统(NFS)。
第二种机制:运行一个辅助NameNode,但它不能被用作NameNode.这个辅助NameNode的重要作用是定期通过编辑日志合并命名空间镜像,以防止编辑日志过大。这个辅助NameNode一般在另一台单独的物理计算机上运行,因为它需要占用大量CPU时间与NameNode相同容量的内存来执行合并操作。它会报出合并后的命名空间镜像的副本,并在NameNode发送故障时启用,但是,辅助NameNoDE报错的状态总数滞后于主节点,所以在主节点全部失效时,难免会丢失部分数据。在这种情况下,一般把存储在NFS上的NameNode元数据复制到辅助NameNode并作为新的主NameNode运行。
NameNode中的文件:
fsimage:元数据镜像文件。存储某一时段NameNode内存中的元数据信息。
edits:操作日志文件。
fstime:保存最近一次checkpoint的时间。
SecondaryNameNode:
HA(双机集群系统简称)的一个解决方案,并非NameNode的热备。
作用:
1、辅助NameNode分担其工作量;
2、定期合并fsimage和edits,并推送给NameNode;
3、减少NameNode启动时间;
4、在紧急情况下,可辅助恢复NameNode;
执行过程:
从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits。
DataNode:
DataNode是提供真实文件数据的存储服务,是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。
DataNode也是文件系统的工作节点,它们根据需要存储并检索数据库(受客户端或NameNode调度),并且定期向NameNode发送它们所在存储的块的列表。
块(Block)是DataNode中最基本的存储单位。
数据块的概念:
对于文件内存而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称为一个Block。
在HDFS中,HDFS默认Block大小是64MB,不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不会占用整个block的存储空间。
为什么HDFS中的数据块如此之大?
HDFS的块比磁盘块大,其目的是为了最小化寻址开销。如果块设置得足够大,从磁盘传输数据的时间可以明显大于这个快开始位置所需的时间。这样,传输一个由多个块组成的文件的时间取决于磁盘传输速率。
在很多情况下HDFS使用128MB的设置。但是该参数也不会设置得过大,MapReduce中的map任务通常一次处理一个块中的数据,因此如果任务数太少(少于集群中的节点数据),作业的运行速度就会比较慢。
每个文件有多个复本,HDFS中默认是3个。可在hdfs-site.xml中配置(dfs.replication属性)。
HDFS中的Master:
在Hadoop中的conf下的Master配置文件中,在此文件中的节点主要的作用:
1、管理HDFS的名称空间;
2、管理数据块映射信息;
3、配置复本策略;
4、处理客户端读写请求;
HDFS中的Slave:
配置在Hadoop中conf目录下的Slaves文件中的节点主要作用:
1、存储实际的数据块;
2、执行数据块读/写;
HDFS中的Client:
作用:
1、文件切分与NameNode交互,获取文件位置信息;
2、与DataNode交互,读取或者写入数据;
3、管理HDFS;
4、访问HDFS;
关于“HDFS体系结构及优缺点是什么”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。