这篇文章将为大家详细讲解有关如何安装spark依赖yarn执行,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
由于之前安装hadoop版本是3.30 所以这里下载spark3
spark下载地址 包含了对应hadoop3的jar包 http://archive.apache.org/dist/spark/spark-3.0.1/spark-3.0.1-bin-hadoop3.2.tgz
完成之后解压 tar -zxvf spark-3.0.1-bin-hadoop3.2.tgz mv spark-3.0.1-bin-hadoop3.2 spark-3
修改hadoop配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml, 并分发
修改hadoop配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml, 并分发 <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true --> <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property> <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true --> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property>
修改配置文件 spark-env.sh
#jdk路径 export JAVA_HOME=/bigdata/jdk1.8.0_161 #yarn路径 YARN_CONF_DIR=/bigdata/hadoop-3.3.0/etc/hadoop #历史服务配置 export SPARK_HISTORY_OPTS=" -Dspark.history.ui.port=18080 -Dspark.history.fs.logDirectory=hdfs://hadoop1:9000/directory -Dspark.history.retainedApplications=30"
修改 spark-defaults.conf
spark.eventLog.enabled true #hdfs地址 路径是先建好的 hdfs dfs -mkdir /directory spark.eventLog.dir hdfs://hadoop1:9000/directory #历史服务的web地址 spark.yarn.historyServer.address=hadoop1:18080 spark.history.ui.port=18080 #jar包托管在hdfs中的地址 spark.yarn.jars hdfs://hadoop1:9000/hadoop/spark_jars/*
将spark整合hadoop3的jar包传到hdfs上
hdfs dfs -mkdir /hadoop hdfs dfs -mkdir /hadoop/spark_jars hdfs dfs -put /usr/local/spark-3/jars/* /hadoop/spark_jars
启动历史服务 sbin/start-history-server.sh
访问ui没有问题后创建一个测试任务
/bigdata/spark/bin/spark-submit --class mapTest --master yarn --driver-memory 512m --executor-memory 512m --deploy-mode cluster /spark-demo.jar
完成
关于“如何安装spark依赖yarn执行”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。