Hadoop0.20.0部署与测试中的单机和伪分布模式操作方法是什么

发布时间：2021-11-23 14:37:49 来源：亿速云阅读：113 作者：柒染栏目：开发技术

这篇文章将为大家详细讲解有关Hadoop0.20.0部署与测试中的单机和伪分布模式操作方法是什么，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

1.单机模式Local(Standalone)Mode

默认情况下，Hadoop被配置成以非分Java布式模式运行的一个独立进程。这对调试非常有帮助。
经过上述配置，就可以运行单机模式了。具体操作请查看手册

2.伪分布式模式的操作方法

Hadoop0.20.0部署中Hadoop可以在单节点上以所谓的伪分布式模式运行，此时每一个Hadoop守护进程都作为一个独立的Java进程运行。
0.20版本较之前版本比配置文件有较大改动，由原来全部配置在hadoop-site.xml改为分别配置在以下三个文件中：
conf/core-site.xml,conf/hdfs-site.xml,conf/mapred-site.xml

具体配置查看手册
以conf/core-site.xml为例:

<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>

如果出现连接错误，可以尝试将了localhost替换为本机IP或127.0.0.1

Hadoop0.20.0部署中免密码ssh设置
现在确认能否不输入口令就用ssh登录localhost:
$sshlocalhost
如果不输入口令就无法用ssh登陆localhost，执行下面的命令：
$ssh-keygen-tdsa-P''-f~/.ssh/id_dsa
$cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys

执行
格式化一个新的分布式文件系统：
$bin/hadoopnamenode-format

启动Hadoop守护进程：
$bin/start-all.sh

Hadoop守护进程的日志写入到${HADOOP_LOG_DIR}目录(默认是${HADOOP_HOME}/logs).
浏览NameNode和JobTracker的网络接口，它们的地址默认为：
*NameNode-http://localhost:50070/
*JobTracker-http://localhost:50030/
到这步为止，必须要先访问上面的NameNode网络接口,当页面能正常显示HDFS的状态时，才能正常进行下面的步骤。

1.点击Browsethefilesystem,***次进入可能会返回一个404错误页面。
2.返回上一页，刷新页面，这时候应该会出现下图所示画面，这就表明DFS已经正常工作(即DFSUsed等数值不再显示为0)。
3.如果不行就反复操作1，2步骤，直至成功。

将输入文件拷贝到分布式文件系统：$bin/hadoopfs-putconfinput
运行发行版提供的示例程序：$bin/hadoopjarhadoop-*-examples.jargrepinputoutput'dfs[a-z.]+'

查看输出文件：
将输出文件从分布式文件系统拷贝到本地文件系统查看：
$bin/hadoopfs-getoutputoutput
$catoutput/*
$bin/hadoopfs-getoutputoutput
$catoutput/*
或者
在分布式文件系统上查看输出文件：

$bin/hadoopfs-catoutput/*  $bin/hadoopfs-catoutput/*  3dfs.class  2dfs.period  1dfs.file  1dfs.replication  1dfs.servers  1dfsadmin  1dfsmetrics.log  3 dfs.class  2 dfs.period  1 dfs.file  1 dfs.replication  1 dfs.servers  1 dfsadmin  1 dfsmetrics.log

完成全部操作后，停止守护进程：$bin/stop-all.sh

Hadoop0.20.0部署与测试中的命令（Command）总结

这部分内容其实可以通过命令的Help以及介绍了解，我主要侧重于介绍一下我用的比较多的几个命令。Hadoopdfs这个命令后面加参数就是对于HDFS的操作，和Linux操作系统的命令很类似，例如：
Hadoopdfs–ls就是查看/usr/root目录下的内容，默认如果不填路径这就是当前用户路径；
Hadoopdfs–rmrxxx就是删除目录，如果多次执行，则每次执行前可以用此命令删除已存在的文件夹内容；
Hadoopdfsadmin–report这个命令可以全局的查看DataNode的情况；
Hadoopjob后面增加参数是对于当前运行的Job的操作，例如list,kill等；
Hadoopbalancer就是前面提到的均衡磁盘负载的命令。

关于Hadoop0.20.0部署与测试中的单机和伪分布模式操作方法是什么就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

向AI问一下细节

Hadoop0.20.0部署与测试中的单机和伪分布模式操作方法是什么

猜你喜欢

最新资讯

相关推荐

相关标签