温馨提示×

spark standalone 如何配置集群

小樊
82
2024-12-16 15:03:13
栏目: 大数据

Apache Spark Standalone 是一种简单的分布式计算框架,用于在多台机器上运行 Spark 应用程序。要配置 Spark Standalone 集群,请按照以下步骤操作:

  1. 准备环境: 确保所有节点(Master 和 Worker)上都安装了 Java Development Kit (JDK) 和 Apache Spark。你还需要在每个节点上安装一个 SSH 服务器,以便 Master 可以访问 Worker。

  2. 配置 Spark: 在每个节点上创建一个名为 spark-env.sh 的 shell 脚本,用于设置 Spark 环境变量。在每个节点上执行以下命令:

touch spark-env.sh
chmod +x spark-env.sh

编辑 spark-env.sh 文件,添加以下内容(根据你的环境进行修改):

export SPARK_MASTER_HOST=<master-ip>
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=<worker-cores>
export SPARK_WORKER_MEMORY=<worker-memory>
export SPARK_WORKER_INSTANCES=<worker-instances>
export SPARK_LOG_DIR=<log-directory>
export SPARK_HOME=<spark-home>
  1. 启动 Master: 在 Master 节点上,打开一个终端窗口,然后执行以下命令以启动 Spark Master:
$SPARK_HOME/sbin/start-master.sh

这将在 Master 节点上启动一个 Web UI,你可以在浏览器中访问 http://<master-ip>:7077 以查看 Spark Web UI。

  1. 启动 Worker: 在每个 Worker 节点上,打开一个终端窗口,然后执行以下命令以启动 Spark Worker:
$SPARK_HOME/sbin/start-slave.sh spark://<master-ip>:7077

这将使 Worker 注册到 Master,并开始在指定的核心和内存上运行任务。

  1. 验证集群: 在 Master 节点的 Web UI 中,你应该能看到 Worker 节点已连接到集群。你可以通过提交一个简单的 Spark 应用程序来验证集群是否正常工作。例如,你可以使用以下命令在 Master 节点上运行一个 Python 示例:
$SPARK_HOME/bin/spark-submit --master spark://<master-ip>:7077 --deploy-mode cluster examples/src/main/python/wordcount.py

如果一切正常,你应该能在 Web UI 中看到作业的执行情况,以及各个 Task 的状态。

现在你已经成功配置了一个 Spark Standalone 集群。你可以开始在这个集群上运行你的 Spark 应用程序了。

0