这篇文章主要讲解了“Java Hadoop的NameNode和SecondaryNameNode有什么用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Java Hadoop的NameNode和SecondaryNameNode有什么用”吧!
NN和2NN工作机制
思考:NameNode中的元数据是存储在哪里的?
如果我们假设元数据存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,那么效率肯定很低。因此,元数据需要放在内存中。但如果只存在内存中,一旦断电,元数据就会丢失,整个集群就不能工作了。因此就产生在磁盘中备份元数据的FsImage中。
这样又会有新的问题出现,当内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,又会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。因此,引入Edits文件(这个文件只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,先把日志记录到Edits中,然后修改内存中的元数据。这样,一旦NameNode节点断电,可以通过FsImage和Edits的合并,合成元数据。
但是,如果长时间添加数据到Edits中,又会导致该文件数据过大,从而效率降低,并且一旦断电,恢复元数据需要的时间过长。因此,需要定期进行FsImage和Edits的合并,如果这个操作由NameNode节点完成,又会效率过低。于是乎第二主角登场了,引入一个新的节点SecondaryNamenode,他的作用就是专门用于FsImage和Edits的合并。
工作机制如图所示
第一阶段:namenode启动
(1)第一次启动namenode格式化后(format),创建fsimage镜像和edits编辑日志文件。如果不是第一次启动,会直接加载编辑日志和镜像文件到内存。
(2)客户端请求元数据进行增删改。
(3)namenode对操作记录日志,更新滚动日志。
(4)然后,namenode对内存的数据进行增删改
第二阶段:Secondary NameNode工作
(1)Secondary NameNode询问namenode是否需要checkpoint,就是是否需要检查。直接带回namenode是否检查结果。
(2)Secondary NameNode请求执行checkpoint,也就是进行检查。
(3)namenode滚动正在写的edits编辑日志
(4)将滚动前的edits编辑日志和fsimage镜像文件拷贝到Secondary NameNode节点
(5)Secondary NameNode加载编辑日志和镜像文件到内存,并且进行合并
(6)生成新的镜像文件fsimage.chkpoint文件
(7)拷贝fsimage.chkpoint到namenode节点
(8)namenode将fsimage.chkpoint重新命名成fsimage,替换了原来的镜像
chkpoint检查时间参数设置
(1)通常情况下,SecondaryNameNode每隔一小时执行一次。
配置文件:hdfs-default.xml
<property> <name>dfs.namenode.checkpoint.period</name> <value>3600</value></property>
(2)一分钟检查一次操作次数,当操作次数达到1百万时,SecondaryNameNode执行一次。
<property>
<name>dfs.namenode.checkpoint.txns</name>
<value>1000000</value>
<description>操作动作次数</description>
</property>
<property>
<name>dfs.namenode.checkpoint.check.period</name>
<value>60</value>
<description> 1分钟检查一次操作次数</description>
</property>
感谢各位的阅读,以上就是“Java Hadoop的NameNode和SecondaryNameNode有什么用”的内容了,经过本文的学习后,相信大家对Java Hadoop的NameNode和SecondaryNameNode有什么用这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。