本篇内容介绍了“CentOS中如何部署Slurm”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
SLURM 是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。它还以一种排他或非排他的方式管理可用的计算节点(取决于资源的需求)。最后,SLURM 将作业分发给一组已分配的节点来执行工作并监视平行作业至其完成。
# vi /etc/sysconfig/selinux SELINUX=disabled# reboot# getenforce(查看SELinux状态)
# systemctl stop firewalld.service# systemctl disable firewalld.service
# yum -y install epel-release
# yum repolist
# yum install axel yum-axelget
安装与配置时间同步NTP服务,运行下列命令:
# yum install ntp -y# systemctl enable ntpd.service# ntpdate pool.ntp.org# systemctl start ntpd
此处推荐下载离线包进行MariaDB的安装。如果进行再现安装,请先进行2.1.1步骤后,在terminal键入yum install -y MariaDB-server
即可。
打开/etc/yum.repos.d/
,新建MariaDB.repo文件
# cd /etc/yum.repos.d/# vi MariaDB.repo
打开https://downloads.mariadb.org/mariadb/repositories/,选择CentOS版本后,看到如下类似的的内容,在文件中粘贴内容,退出保存。
# MariaDB 10.2 CentOS repository list - created 2017-07-17 09:59 UTC# http://downloads.mariadb.org/mariadb/repositories/[mariadb] name = MariaDB baseurl = http://yum.mariadb.org/10.2/centos7-amd64 gpgkey=https://yum.mariadb.org/RPM-GPG-KEY-MariaDB gpgcheck=1
下载离线包,解压并进行安装
# axel -n 10 https://downloads.mariadb.com/MariaDB/mariadb-10.2.7/yum/rhel/mariadb-10.2.7-rhel-7-x86_64-rpms.tar# tar xvf mariadb-10.2.7-rhel-7-x86_64-rpms.tar# cd mariadb-10.2.7-rhel-7-x86_64-rpms/# yum localinstall -y MariaDB-* galera-25.3.20-1.rhel7.el7.centos.x86_64.rpm
# service mysql start# mysql_secure_installation# systemctl enable mariadb.service# systemctl status mariadb.service# mysql -u root -p
在创建用户和用户组前,需要键入命令vi /etc/group
查看用户组是否冲突
# export MUNGEUSER=1190# groupadd -g $MUNGEUSER munge# useradd -m -c "MUNGE Uid 'N' Gid Emporium" -d /var/lib/munge -u $MUNGEUSER -g munge -s /sbin/nologin munge# export SlurmUSER=1191# groupadd -g $SlurmUSER slurm# useradd -m -c "Slurm workload manager" -d /var/lib/slurm -u $SlurmUSER -g slurm -s /bin/bash slurm# cd /var/yp# make
安装MUNGE进行身份验证。确保集群中的所有节点具有相同的munge.key。确保Munge的守护程序munged在Slurm的守护进程之前启动。
# yum install munge munge-libs munge-devel -y# yum install rng-tools -y# rngd -r /dev/urandom
在Master Node进行设置,创建一个在每个结点全局使用的密钥。
# /usr/sbin/create-munge-key -r# dd if=/dev/urandom bs=1 count=1024 > /etc/munge/munge.key# chown munge: /etc/munge/munge.key# chmod 400 /etc/munge/munge.key
密钥创建成功后,需要将该密钥发送到所有计算节点:
# scp -p /etc/munge/munge.key root@192.168.118.195:/etc/munge# ...
设置正确的所有权限和模式
# chown -R munge: /etc/munge/ /var/log/munge/# chmod 0700 /etc/munge/ /var/log/munge/# chmod 0711 /var/lib/munge/
# systemctl start munge# systemctl status munge# systemctl enable munge
# munge -n# munge -n | unmunge# munge -n | ssh 192.168.118.195 unmunge # Master Node进行测试# remunge
# yum install openssl openssl-devel pam-devel numactl numactl-devel hwloc hwloc-devel lua lua-devel readline-devel rrdtool-devel ncurses-devel man2html libibmad libibumad -y
# wget https://www.schedmd.com/downloads/latest/slurm-17.02.6.tar.bz2
# yum install rpm-build# rpmbuild -ta slurm-17.02.6.tar.bz2
如果rpmbuild出现如下错误:
error: Failed build dependencies: perl(ExtUtils::MakeMaker) is needed by slurm-17.02.6-1.el7.centos.x86_64
利用cpanm安装Perl模块后再进行rpmbuild。
# yum install cpanm*
# cd /root/rpmbuild/RPMS/x86_64# yum --nogpgcheck localinstall slurm-*
进入http://slurm.schedmd.com/configurator.easy.html,按照如下范例进行自定义设置:
ControlMachine: mhc ControlAddr: 192.168.118.163 NodeName: cas01 NodeAddr: 192.168.118.195 CPUs: 1 Sockets: 2 RealMemory: 27145 # terminal键入free -m查看,最好设置为实际值的85%StateSaveLocation: /var/spool/slurmctld SlurmctldLogFile: /var/log/slurmctld.log SlurmdLogFile: /var/log/slurmd.log AccountingStorageType=accounting_storage/mysql ClusterName: mhc JobAcctGatherType=jobacct_gather/linux
点击Submit确认后,将页面的配置信息复制到slurm.conf中,保存退出;
# cd /etc/slurm# vim slurm.conf
设置正确的Master Node节点的slurm.conf发送给其他的Compute Node,同时对Compute Node进行配置;
# scp -p /etc/slurm/slurm.conf root@192.168.118.195:/etc/slurm/# ...
确保Master Node具有所有正确的配置和文件
# mkdir /var/spool/slurmctld# chown slurm: /var/spool/slurmctld# chmod 755 /var/spool/slurmctld# touch /var/log/slurmctld.log# chown slurm: /var/log/slurmctld.log# touch /var/log/slurm_jobacct.log /var/log/slurm_jobcomp.log# chown slurm: /var/log/slurm_jobacct.log /var/log/slurm_jobcomp.log
查看slurmd配置是否正确
# slurmd -C
开启Master Node的slurmctld服务
# systemctl start slurmctld.service# systemctl status slurmctld.service# systemctl enable slurmctld.service
Accounting records可以为slurm收集每个作业步骤的信息。Accounting records可以写入一个简单的文本文件或数据库。
通过将文本文件指定为Accounting存储类型从而可以轻松地将数据存储到文本文件中。但是这个文件会变得越来越大,难以使用。因此,最简单且推荐的方法是使用数据库来存储信息。而Mysql是目前唯一支持的数据库。
# mysql -u root -p
slurm_acct_db数据库的配置:
> grant all on slurm_acct_db.* to ‘slurm’@’192.168.118.%’ identified by ‘!QAZ2wsx3edc’ with grant option > grant all on slurm_acct_db.* to ‘slurm’@’localhost’ identified by ‘!QAZ2wsx3edc’ with grant option; > SHOW VARIABLES LIKE ‘have_innodb’; > create database slurm_acct_db; > quit;
# cp /etc/slurm/slurmdbd.conf.example /etc/slurm/slurmdbd.conf# chown slurm: /etc/slurm/slurmdbd.conf# chmod 600 /etc/slurm/slurmdbd.conf# mkdir /var/log/slurm/# touch /var/log/slurm/slurmdbd.log# chown slurm: /var/log/slurm/slurmdbd.log# vi /etc/slurm/slurmdbd.confLogFile=/var/log/slurm/slurmdbd.log DbdHost=localhost DbdPort=6819 slurmUser=slurm StorageHost=localhost StoragePass=!QAZ2wsx3edc StorageLoc=slurm_acct_db
# cp /usr/lib/systemd/system/slurmctld.service /usr/lib/systemd/system/slurmd.service /usr/lib/systemd/system/slurmdbd.service /etc/systemd/system/# cat /etc/systemd/system/slurmctld.service
修改slurm.conf配置文件,同时同步到Compute Node
# vi /etc/slurm/slurm.conf
在AccountingStorageType=accounting_storage/mysql
后添加这几行
AccountingStorageHost=localhost AccountingStoragePort=3306 AccountingStoragePass=!QAZ2wsx3edc AccountingStorageUser=slurm
# systemctl enable slurmdbd# systemctl start slurmdbd# systemctl status slurmdbd
安装MUNGE进行身份验证
# yum install munge munge-libs munge-devel -y
设置Compute Node的MUNGE权限和启动MUNGE服务
在下列操作之前,Master Node应该将munge.key传到Compute Nodes
# chown -R munge: /etc/munge/ /var/log/munge/# chmod 0700 /etc/munge/ /var/log/munge/# systemctl start munge# systemctl enable munge
在Master Node测试访问Compute Node
# munge -n | ssh 192.168.118.195 unmunge# ...
# yum install openssl openssl-devel pam-devel numactl numactl-devel hwloc hwloc-devel lua lua-devel readline-devel rrdtool-devel ncurses-devel man2html libibmad libibumad -y
# scp root@192.168.118.163:/root/rpmbuild/RPMS/x86_64/* /root/rpmbuild/RPMS/x86_64/# cd /root/rpmbuild/RPMS/x86_64# yum --nogpgcheck localinstall slurm-*
确保Compute Node具有所有正确的配置和文件
在下列操作之前,确保Master Node将slurm.conf发送给其他的Compute Nodes
# mkdir /var/spool/slurmd# chown slurm: /var/spool/slurmd# chmod 755 /var/spool/slurmd# touch /var/log/slurmd.log# chown slurm: /var/log/slurmd.log
开启Compute Node的slurmd服务
# systemctl start slurmd.service# systemctl status slurmd.service# systemctl enable slurmd.service
Compute Nodes中出现Failed to start slurm node daemon.
时候,同时cat /var/log/slurm.log
后看到cannot create proctrack context for proctrack/cgroup
错误的时候,执行:
# cd /etc/slurm/# cp cgroup.conf.example cgroup.conf# cp cgroup_allowed_devices_file.conf.example cgroup_allowed_devices_file.conf
# scontrol show nodes
如果Compute Nodes的State=DOWN
,则如下执行,将状态变成IDLE
:
# scontrol update nodename=cas01 state=resume
# srun -N4 hostname
# scontrol show nodes
# scontrol show jobs
# sbatch -N2 script-file
sacct
被用来汇报工作或者解释激活的或完成的工作的信息的工作步骤。salloc
被用来实时的分配给一个工作任务资源。经常地这被用来分配资源并生成一个Shell(命令解释程序)。这个Shell程序然后被用来执行srun
命令运行平行的任务们。sattach
被用来将标准输入输出以及错误的附加的信号能力附着于目前正在执行的工作或工作步骤。这既可以被附着也可以将其从多任务线程中分离。sbatch
被用来提交一段工作脚本以进行后续的执行,这个脚本经常性地包括一个或多个srun
命令去运行平行任务。sbcast
被用来将一个文件从当地硬盘转移到当地硬盘上被分配到这个工作的节点上。这可以被用来高效地使用(diskless)不怎么使用硬盘的计算节点或相对于一个共享文件系统而言提供更好的性能。scancel
被用来取消一个挂起或正在执行的工作或工作步骤。他能够被用来发送任意信号给所有与正在执行的工作或工作步骤相关的进程。scontrol
是管理性的工具用来视察并或修改slurm状态。记住许多scontrol命令只能被管理员root权限执行。sinfo
记录了由slurm管理的(partition)分区和节点的状态,它有广泛多样的如过滤、排序、格式化等的选项。smap
记录了由slurm管理的工作、分区和节点的状态信息,但图像化显示的信息业反映了网络拓扑结构。strigger
被用来设置、获得或视察事件触发器。事件触发器包括了诸如节点going down(挂死)或工作任务接近了它们的限制事件。sview
是一个图像化的用户界面用来获得并更新由slurm管理的工作、分区以及节点的状态信息。“CentOS中如何部署Slurm”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。