在Debian系统上管理Hadoop服务通常涉及以下几个关键步骤:
安装Java环境: Hadoop需要Java运行环境。首先,确保系统已经安装了Java。如果没有,可以使用以下命令安装OpenJDK:
sudo apt update
sudo apt install openjdk-11-jdk
确认Java已正确安装:
java -version
下载并解压Hadoop: 访问Hadoop官方网站下载适用于Debian的Hadoop版本,例如Hadoop 3.3.1。
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
sudo tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
sudo mv /usr/local/hadoop-3.3.1 /usr/local/hadoop
配置Hadoop环境变量:
编辑~/.bashrc文件,添加以下内容:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source ~/.bashrc
配置Hadoop配置文件: 在Hadoop目录下,编辑以下配置文件:
core-site.xml:<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://namenode:9000</value>
</property>
</configuration>
hdfs-site.xml:<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/dfs/data</value>
</property>
</configuration>
mapred-site.xml:<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml:<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
格式化HDFS: 在NameNode上运行以下命令格式化HDFS:
hdfs namenode -format
启动Hadoop服务: 在NameNode上启动Hadoop的NameNode和DataNode:
./sbin/start-dfs.sh
./sbin/start-yarn.sh
验证安装: 检查Hadoop版本:
hadoop version
运行一个简单的WordCount示例来验证安装是否成功。
启动和停止Hadoop集群:
start-all.sh
stop-all.sh
管理Hadoop文件系统(HDFS):
hdfs dfs -mkdir /path/to/directory
hdfs dfs -put /local/path/file /hdfs/path/
hdfs dfs -get /hdfs/path/file /local/path/
hdfs dfs -ls /path/to/directory
管理Hadoop作业:
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount input_directory output_directory
yarn application -status <applicationId>
yarn application -kill <applicationId>
使用Hadoop自带的Web界面:
使用命令行工具:
yarn application -list
yarn application -status <applicationId>
yarn logs -applicationId <applicationId>
使用系统监控工具:
使用日志聚合功能:
使用监控脚本:
以上步骤提供了在Debian系统上管理Hadoop资源的基本指南。在实际操作中,可能还需要根据具体的集群配置和环境进行调整。