帮助文档
专业提供香港服务器、香港云服务器、香港高防服务器租用、香港云主机、台湾服务器、美国服务器、美国云服务器vps租用、韩国高防服务器租用、新加坡服务器、日本服务器租用 一站式全球网络解决方案提供商!专业运营维护IDC数据中心,提供高质量的服务器托管,服务器机房租用,服务器机柜租用,IDC机房机柜租用等服务,稳定、安全、高性能的云端计算服务,实时满足您的多样性业务需求。 香港大带宽稳定可靠,高级工程师提供基于服务器硬件、操作系统、网络、应用环境、安全的免费技术支持。
服务器资讯 / 香港服务器租用 / 香港VPS租用 / 香港云服务器 / 美国服务器租用 / 台湾服务器租用 / 日本服务器租用 / 官方公告 / 帮助文档
ubuntu服务器安装Slurm
发布时间:2024-03-07 03:13:10   分类:帮助文档
ubuntu服务器安装Slurm 相关内容,网上不少,这里记录一下自己出现的问题和解决方法,采用的是Ubuntu22.04,方法可以参考知乎上面这篇文章Ubuntu服务器安装配置slurm,整个安装过程没有什么问题,主要步骤贴在这里但在使用过程中,依然有报错,具体可以看一下这篇文章Local SLURM cluster setup 里面也有相关安装步骤,但是在第8步中写道一点,可能很多人也和这里一样没有Cgroup,那么请选择LinuxProc,可以通过使用 Fill in the text fields according to the requirements and click the submit button. Please note in the ProcessTracking section, there is an option Cgroup (which stands for control groups). Control groups are a Linux kernel feature that limits, accounts for, and isolates the resource usage (CPU, memory, disk I/O, network, etc.) of a collection of processes. However, the control groups feature was not set up on the system I used. Instead, I had to select LinuxProc. Step 1. 安装依赖的软件包 slurmd: 完成计算节点的任务(启动任务、监控任务、分层通信)slurmctld: 完成管理节点的任务(故障切换、资源监控、队列管理、作业调度) $ sudo apt update $ sudo apt install slurm-wlm # `slurmd`: compute node daemon $ sudo apt install slrumd # `slurmctld`: central management daemon $ sudo apt install slurmctld Step 2. 找到slurm-wlm-configurator.html文件,进入该目录下 # 输入以下命令,并 $ dpkg -L slurmctld | grep slurm-wlm-configurator.html /usr/share/doc/slurmctld/slurm-wlm-configurator.html $ cd /usr/share/doc/slurmctld $ chmod +r slurm-wlm-configurator.html Step 3. 利用 web 生成配置文件 $ python3 -m http.server Serving HTTP on 0.0.0.0 port 8000 (http://0.0.0.0:8000/) ... 打开浏览器,输入 http://:8000/,进入配置页面(如下图),点击进入 slurm-wlm-configurator.html 按照自己的需求填写设置。 web 生成slurm.conf 填写完毕后,点击submit,将生成的内容拷贝进 /etc/slurm/slurm.conf (slurm 的配置文件) # 创建 $ sudo touch /etc/slurm/slurm.conf # 将网页生成的内容 copy 进来 $ sudo vim /etc/slurm/slurm.conf # ctrl + v Step 4. 手动创建slurm的输出文件目录 $ sudo mkdir /var/spool/slurm/d $ sudo mkdir /var/spool/slurmctld Step 5. 启动 slurm 服务 # 启动 slurmd, 日志文件路径为 `/var/log/slurmd.log` $ sudo systemctl start slurmd # 启动 slurmctld, 日志文件路径为 `/var/log/slurmctld.log` $ sudo systemctl start slurmctld 启动后无法正常使用 slurm 的话,先查看slurmd和slurmctld的状态,打开日志查看报错。 # 查看 slurmd 的状态 $ sudo systemctl status slurmd # 查看 slurmctld 的状态 $ sudo systemctl status slurmctld 3. slurm.conf 中几个关键 column 的填写 C1. ClusterName 集群名,随便取 C2. SlurmctldHost 管理节点的主机名 # 获取主机名 $ hostname -s mu01 C3. SlurmUser 最好 `SlurmUser=root`,权限最高,填写日志文件不会由于权限问题报错 C4. 管理节点和计算节点的配置(slurm.conf的最后三行) 此处以单节点集群举例(单个节点既作为管理节点,又作为计算节点) EnforcePartLimits=ALL NodeName=mu01 CPUs=36 State=UNKNOWN # 本行可以通过 `slurmd -C` 获取 PartitionName=compute Nodes=mu01 Default=YES MaxTime=INFINITE State=UP # 创建一个名为compute的队列 slurmd -C 的输出: $ slurm -C NodeName=mu01 CPUs=36 Boards=1 SocketsPerBoard=1 CoresPerSocket=10 ThreadsPerCore=2 RealMemory=63962
香港云服务器租用推荐
服务器租用资讯
·广东云服务有限公司怎么样
·广东云服务器怎么样
·广东锐讯网络有限公司怎么样
·广东佛山的蜗牛怎么那么大
·广东单位电话主机号怎么填写
·管家婆 花生壳怎么用
·官网域名过期要怎么办
·官网邮箱一般怎么命名
·官网网站被篡改怎么办
服务器租用推荐
·美国服务器租用
·台湾服务器租用
·香港云服务器租用
·香港裸金属服务器
·香港高防服务器租用
·香港服务器租用特价