当前位置: 首页 > article >正文

【Ubuntu】Ubuntu server 18.04 搭建Slurm并行计算环境(包含NFS)

Ubuntu server 18.04 搭建Slurm并行计算环境(包含NFS)

一、Munge 认证模块

1.1、安装 munge

主节点和子节点都安装munge

#安装
sudo apt update && sudo apt install munge libmunge-dev

#设置开机启动
sudo systemctl enable munge
sudo systemctl start munge

#验证安装
munge -V
sudo systemctl status munge

在这里插入图片描述

1.2、配置munge

主节点配置

#生成统一key
sudo create-munge-key
#设置munge.key访问权限
sudo chmod 1777 /etc/munge

子节点配置

#设置munge.key访问权限
sudo chmod 1777 /etc/munge
#删除自动生成的munge.key
rm -rf /etc/munge/munge.key
#从主节点获取/etc/munge/munge.key
sudo scp master@ipaddress:/etc/munge/munge.key /etc/munge
#设置munge.key文件访问权限
sudo chown munge:munge /etc/munge/munge.key
sudo chmod 400 /etc/munge/munge.key
#子节点重启
sudo systemctl restart munge
sudo systemctl status munge
#验证是否和主节点执行结果一致
munge -n

在这里插入图片描述

常见报错:权限问题,sudo chown munge:munge /etc/munge/munge.key && sudo chmod 400 /etc/munge/munge.key

在这里插入图片描述

二、安装NFS文件共享模块

2.1、NFS服务器端配置

# 安装nfs服务端
sudo apt update && sudo apt install nfs-kernel-server

# 配置NFS服务端共享目录,并设置公共访问权限
sudo mkdir -p /nfs
sudo chown nobody:nogroup /nfs  

# 修改NFS服务端配置文件,并使配置生效
sudo vim /etc/exports
sudo exportfs -a

#添加如下内容
/nfs *(rw,sync,no_subtree_check,fsid=0,crossmnt)

在这里插入图片描述

# 启动nfs服务,并设置开机自启
sudo systemctl start nfs-kernel-server
sudo systemctl enable nfs-kernel-server

2.2、NFS客户端配置

# 安装NFS客户端
sudo apt update && sudo apt install nfs-common

# 创建与NFS服务端相同的共享目录
sudo mkdir -p /nfs

# 挂载共享目录
sudo mount 192.168.1.xxx(NFS服务端ip地址):/nfs /nfs

# 修改客户端配置文件
sudo vim /etc/fstab

# 添加如下内容
192.168.1.xxx(NFS服务端ip地址):/nfs /nfs nfs defaults 0 0

在这里插入图片描述

验证NFS配置:在NFS服务端的共享目录中创建文件,在NFS客户端的挂载目录查看是否有相同文件

在这里插入图片描述

二、Slurm作业调度模块

2.1、Slurm控制节点配置

 # 安装配置文件
 sudo apt install slurm-wlm slurm-wlm-doc -y
 
 # 准备生成slurm配置文件
 dpkg -L slurmctld | grep html
 cd /usr/share/doc/slurmctld/

在这里插入图片描述

# 生成server页面,可视化生成配置文件
python3 -m http.server

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

# 启动slurm,并设置开机自启
sudo systemctl start slurmctld
sudo systemctl enable slurmctld

# 验证
sinfo
sudo systemctl status slurmctld

在这里插入图片描述

2.2、Slurm计算节点配置

# 安装slurm
sudo apt install slurm-wlm slurm-wlm-doc -y

# 复制控制节点的配置文件 /etc/slurm-llnl/slurm.conf 到 计算节点
ll /etc/slurm-llnl

# 启动slurm,并设置开机自启
sudo systemctl start slurmd
sudo systemctl enable slurmd

# 验证
sudo systemctl status slurmd

在这里插入图片描述


http://www.kler.cn/a/459301.html

相关文章:

  • 【Java设计模式-1】单例模式,Java世界的“独苗”
  • 刷入super镜像报错 FAILED (remote: ‘Error: Last flash failed : Volume Full‘)
  • springboot525基于MVC框架自习室管理和预约系统设计与实现(论文+源码)_kaic
  • 数据可视化分析详解
  • flux中的缓存
  • 【机器学习】工业 4.0 下机器学习如何驱动智能制造升级
  • WinForm事件遇到异步方法的处理方式
  • 5_SparkGraphX讲解
  • 职场中哪些话中话,弦外之音
  • word中插入zotero引用
  • QT写的动态正弦曲线图显示并打印
  • 多模态机器人
  • 24.小R的随机播放顺序<字节青训营-中等题>
  • 实战指南:Shiro、CAS打造完美单点登录体验
  • 运行python程序报错 undefined symbol: ffi_type_uint32 的参考解决方法
  • 马原复习笔记
  • AWS K8s 部署架构
  • 在云服务器中编译IDF(ESP32库)
  • 2024年个人总结
  • 使用 PyInstaller 和 hdiutil 打包 Tkinter 应用为 macOS 可安装的 DMG 文件
  • 统计颜色Count Color(POJ2777)题解
  • 【UE5 C++课程系列笔记】16——DeveloperSettings(开发者设置)的基本使用——创建配置文件
  • 【linux进程】进程终止进程等待
  • CSS(层叠样式表)基础选择器,文字控制属性
  • SpringBoot发邮件(带附件)
  • 《Vue进阶教程》第二十九课:立即执行的回调