这篇文章主要为大家展示了“hadoop怎样安装与配置”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“hadoop怎样安装与配置”这篇文章吧。
##1.hadoop简介
hadoop有什么作用?应用于哪些领域?解决什么问题?
1.hadoop的三大核心组件
1>HDFS(分布式文件系统),解决海量数据存储。
2>YARN(作业调度和集群资源管理),解决资源任务调度问题。 3>MAPReduce(分布式变成模型) , 解决海量数据计算问题。
2.hadoop应用领域
1>日志分析处理
2>ETL,数据抽取到mysql、mongdb、hive等数据库。
3>机器学习,如Apache Mahout项目,这个点目前比较火爆。
4>数据挖掘,其实就是数据分析,如智能推荐。
3.hadoop解决问题
举例说明:需求方要求在100M的文件中统计分析出某些特殊字符的位置以及个数等,这个时候用java文件流的方式可以实现,去读取这个文件,然后写逻辑代码分析统计。但是需求方如果给10个100M,或者是1w个100M的文件呢,这个时候就只能依靠一些大数据框架来处理了,hadoop应运而生,它解决的问题就是 海量数据存储及海量数据分析。
##2.安装hadoop
1.下载hadoop,官网地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.10.1/
2.解压hadoop,tar -zxvf hadoop-2.10.1.tar.gz,如下图
这里简要说明下hadoop目录结构
1>bin目录,存放hadoop相关服务(hdfs、mapred、yarn)的操作脚本。
2>etc目录,存放hadoop的配置文件,后面会大量修改这里配置文件
3>lib目录,存放hadoop的本地库,对数据进行压缩与解压功能
4>sbin目录,存放hadoop所有服务的启动或者停止脚本
5>share目录,存放hadoop的依赖jar包,文档与官方样例
3.配置hadoop环境变量
vi /etc/profile
#hadoop环境变量 export HADOOP_HOME=/usr/java/hadoop/hadoop-2.10.1
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
4.测试是否安装成功
hadoop version
很明显,出来了版本信息,说明环境变量配置没得问题
5.修改hadoop配置文件
1>修改配置文件hadoop-env.sh
打开该配置文件,发现有一行是配置java环境变量的,初始值是${JAVA_HOME},这里改成具体的jdk所在目录。查看jdk安装目录采用echo $JAVA_HOME命令,
修改hadoop-env.sh之后,如下
2>修改配置文件core-site.xml
主要设置两个属性,1.HDFS的NameNode的地址;2.指定hadoop运行时产生的临时文件目录
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9090</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/java/hadoop/hadoop-2.10.1/tmp</value> </property> </configuration>
修改后如下
3>修改hdfs-site.xml文件
主要设置3个属性,1.namenode产生的文件存放路径,2.datanode产生的文件存放路径,3.replication表示HDFS保存数据副本的数量。
<configuration> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/java/hadoop/hadoop-2.10.1/hdfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/java/hadoop/hadoop-2.10.1/hdfs/data</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
4>修改配置文件mapred-site.xml
我们在hadoop目录下没有发现mapred-site.xml,但是有mapred-site.xml.template,如下图
所以我们需要去掉 .template。采用mv mapred-site.xml.template mapred-site.xml。
该配置文件我们只设置一个属性,用于指定mapreduce运行在yarn上,即mapreduce使用yarn框架。
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
5>修改配置文件yarn-site.xml
主要配置是nodemanager获取数据的方式是shuffle。
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandle</value> </property> </configuration>
以上是“hadoop怎样安装与配置”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。