spark standalone 如何配置集群

spark

小樊

2024-12-16 15:03:13

栏目: 大数据

Apache Spark Standalone 是一种简单的分布式计算框架，用于在多台机器上运行 Spark 应用程序。要配置 Spark Standalone 集群，请按照以下步骤操作：

准备环境：确保所有节点（Master 和 Worker）上都安装了 Java Development Kit (JDK) 和 Apache Spark。你还需要在每个节点上安装一个 SSH 服务器，以便 Master 可以访问 Worker。
配置 Spark：在每个节点上创建一个名为 spark-env.sh 的 shell 脚本，用于设置 Spark 环境变量。在每个节点上执行以下命令：

touch spark-env.sh
chmod +x spark-env.sh

编辑 spark-env.sh 文件，添加以下内容（根据你的环境进行修改）：

export SPARK_MASTER_HOST=<master-ip>
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=<worker-cores>
export SPARK_WORKER_MEMORY=<worker-memory>
export SPARK_WORKER_INSTANCES=<worker-instances>
export SPARK_LOG_DIR=<log-directory>
export SPARK_HOME=<spark-home>

启动 Master：在 Master 节点上，打开一个终端窗口，然后执行以下命令以启动 Spark Master：

$SPARK_HOME/sbin/start-master.sh

这将在 Master 节点上启动一个 Web UI，你可以在浏览器中访问 http://<master-ip>:7077 以查看 Spark Web UI。

启动 Worker：在每个 Worker 节点上，打开一个终端窗口，然后执行以下命令以启动 Spark Worker：

$SPARK_HOME/sbin/start-slave.sh spark://<master-ip>:7077

这将使 Worker 注册到 Master，并开始在指定的核心和内存上运行任务。

验证集群：在 Master 节点的 Web UI 中，你应该能看到 Worker 节点已连接到集群。你可以通过提交一个简单的 Spark 应用程序来验证集群是否正常工作。例如，你可以使用以下命令在 Master 节点上运行一个 Python 示例：

$SPARK_HOME/bin/spark-submit --master spark://<master-ip>:7077 --deploy-mode cluster examples/src/main/python/wordcount.py

如果一切正常，你应该能在 Web UI 中看到作业的执行情况，以及各个 Task 的状态。

现在你已经成功配置了一个 Spark Standalone 集群。你可以开始在这个集群上运行你的 Spark 应用程序了。

spark standalone 如何配置集群

最新问答

相关标签