这篇文章主要介绍如何安装单机版hadoop相关套件,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
配置文件在 $HADOOP_HOME/etc/hadoop 目录下。
配置 hadoop-env.sh ,添加属性
# The java implementation to use.
export JAVA_HOME=/home/java/jdk1.8.0_191
export HADOOP_OPTS="$HADOOP_OPTS -Duser.timezone=GMT+08"
配置 core-site.xml
<configuration>
<!-- 用来指定hdfs的NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop-standalone:9000</value>
</property>
<!-- 用来指定Hadoop运行时产生文件的存放目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/data/hadoop</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
</configuration>
配置 hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
配置 mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- 日志查看页面. -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop-standalone:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop-standalone:19888</value>
</property>
<!-- 配置正在运行中的日志在hdfs上的存放路径 -->
<property>
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/history/done_intermediate</value>
</property>
<!-- 配置运行过的日志存放在hdfs上的存放路径 -->
<property>
<name>mapreduce.jobhistory.done-dir</name>
<value>/history/done</value>
</property>
</configuration>
配置 yarn-site.xml
<configuration>
<!-- NodeManager获取数据的方式是shuffle-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的老大(resourcemanager)的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-standalone</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.nodemanager.log-aggregation.debug-enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds</name>
<value>3600</value>
</property>
<property>
<name>yarn.log.server.url</name>
<value>http://hadoop-standalone:19888/jobhistory/logs</value>
</property>
</configuration>
yarn-env.sh 配置中添加
YARN_OPTS="$YARN_OPTS -Duser.timezone=GMT+08"
格式化namenode
hdfs namenode -format
分别启动 hdfs / yarn / jobhistory服务器
$HADOOP_HOME/sbin/start-dfs.sh
$HADOOP_HOME/sbin/start-yarn.sh
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver
分别访问
http://hadoop-standalone:50070
http://hadoop-standalone:8088
先安装scala, 再在系统的环境变量中配置SPARK_HOME
然后配置 spark-env.sh
export JAVA_HOME=/home/java/jdk1.8.0_191
export SCALA_HOME=/home/scala2.11.12
export HADOOP_HOME=/home/hadoop-2.7.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_LOCAL_DIRS=/home/data/spark
配置 spark-defaults.conf
spark.yarn.jars hdfs://hadoop-standalone:9000/spark/share/lib/*.jar
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop-standalone:9000/spark/spark-events
spark.history.ui.port 18080
spark.history.retainedApplications 10
spark.history.fs.logDirectory hdfs://hadoop-standalone:9000/spark/spark-events
spark的运行包上传到dfs
hdfs dfs -put $SPARK_HOME/jars/* /spark/share/lib
启动 spark history 服务器
$SPARK_HOME/sbin/start-history-server.sh
master和slave都是同一台机子, 即管理者和工人都是自己
启动 spark master 和 slaves服务
$SPARK_HOME/sbin/start-master.sh
$SPARK_HOME/sbin/start-slaves.sh
下面是默认的端口
SPARK_MASTER_PORT=7077 # 提交任务的端口
SPARK_MASTER_WEBUI_PORT=8080 # webui端口,查看任务进程
打开页面 http://hadoop-standalone:8080/ , 可以看到有worker已经加入到集群
用于一些组件的元数据 ,需要事先启动
添加环境变量
#hive
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
复制mysql的驱动程序到hive/lib
配置hive.env.sh
export HADOOP_HOME=/opt/hadoop-2.6.5
# Hive Configuration Directory can be controlled by: export
HIVE_CONF_DIR=/opt/hive-2.3.5/conf
修改log生成的目录。配置文件hive-log4j.properties。修改到你所需的目录
property.hive.log.dir = /opt/hive-2.3.5/logs
配置 hive-site.xml
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!--hdfs上hive数据存放位置 -->
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<!--连接数据库地址,名称 -->
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&useSSL=false</value>
</property>
<!--连接数据库驱动 -->
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<!--连接数据库用户名称 -->
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<!--连接数据库用户密码 -->
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123456</value>
</property>
<!--客户端显示当前查询表的头信息 -->
<property>
<name>hive.cli.print.header</name>
<value>true</value>
</property>
<!--客户端显示当前数据库名称信息 -->
<property>
<name>hive.cli.print.current.db</name>
<value>true</value>
</property>
<property>
<name>hive.metastore.port</name>
<value>9083</value>
<description>Hive metastore listener port</description>
</property>
<property>
<name>hive.server2.thrift.port</name>
<value>10000</value>
<description>Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.</description>
</property>
<!-- 客户端配置,连接远端的metadata -->
<property>
<name>hive.metastore.local</name>
<value>false</value>
</property>
<property>
<name>hive.metastore.uris</name>
<value>thrift://192.168.56.140:9083</value>
</property>
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
</property>
</configuration>
初始化hive的meta数据库(mysql)
schematool -dbType mysql -initSchema
启动hive的命令行客户端,试运行
hive
创建个数据库测试下:
create database test_connect_hive;
使用jdbc客户端连接hiveserver2
在hadoop/core-site.xml 添加配置。其中 root 是现在用的用户名(报错那里有)
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
修改hadoop要重启.
下面分别启动 metastore 访问服务和hiveserver2服务
nohup hive --service metastore >> /home/data/hive/metastore.log 2>&1 &
nohup hive --service hiveserver2 >> /home/data/hive/hiveserver2.log 2>&1 &
通过 beelines 客户端连接 hiveserver2 测试。
beeline
输入连接的地址
!connect jdbc:hive2://localhost:10000
将hive的配置文件拷贝给spark
将 $HIVE_HOME/conf/hive-site.xml copy $SPARK_HOME/conf/
dfs: http://hadoop-standalone:50070/explorer.html#/
spark master(standalone): http://hadoop-standalone:8080
spark history: http://hadoop-standalone:18080/
以上是“如何安装单机版hadoop相关套件”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注亿速云行业资讯频道!
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
原文链接:https://my.oschina.net/thinwonton/blog/3129675