【人工智能】实验室GPU资源申请使用
实验室独占实例Ubuntu 20.04 配置 Pytorch GPU
一、换源
1. 备份原来的文件
sudo cp /etc/apt/sources.list /etc/apt/sources.list.backup
2. 编辑vi /etc/apt/sources.list
文件
vim /etc/apt/sources.list
3. 将内容全部替换为下面
# 默认注释了源码镜像以提高 apt update 速度,如有需要可自行取消注释
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal-updates main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal-updates main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal-backports main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal-backports main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal-security main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal-security main restricted universe multiverse
4. 更新软件
sudo apt-get update
二、安装 anaconda
1. 去官网登录、下载 官网链接
2. 将下载的文件 Anaconda3-2024.06-1-Linux-x86_64.sh
文件上传到服务器,并在该目录下执行下面代码,一路回车
bash Anaconda3-2024.06-1-Linux-x86_64.sh
3. 创建conda虚拟环境
conda create -n pytorch241 python=3.10.0
pytorch241 为环境名,自己随便取,python 版本根据要安装的pytorch要求指定。pytorch 官网 有每个pytorch的最低python版本要求。
如果报错
conda
找不到,vim ~/.bashrc
,将export PATH=$PATH:/home/vincent/anaconda3/bin
添加到末尾,再进行刷新source ~/.bashrc
4. 初始化conda环境
conda init
5. 切换到刚才建立的环境
conda activate pytorch241
pytorch241 自己创建的虚拟环境名
三、安装 pytorch
1. 检查显卡信息
nvidia-smi
如果显示下面图图片,说明显卡安装没问题,右上角CUDA Version 为显卡支持CUDA最高版本,也就是说过会安装pytorch的时候,cuda版本不能超过这个。
否则就需要自己安装显卡驱动
确认自己电脑安装了NVIDIA显卡:
lspci | grep -i nvidia
查看合适的版本:ubuntu-drivers devices
安装带recomended
标记的显卡驱动(别安装带open的):sudo apt install nvidia-driver-535
(如果提示 sudo 找不到 conda:vim ~/.bashrc
在最后添加alias sudo="sudo env PATH=$PATH"
,再执行source ~/.bashrc
)
2. 打开pytorch官网 官网链接,选择合适的配置
执行下面代码的时候要确保已经激活刚才新建的anaconda环境
如果还没激活,请执行conda activate pytorch241
,pytorch241为自己新建的环境名。
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
3. 验证是否安装成功
打开 python:
python
导入 torch:import torch
查看GPU是否可用:print(torch.cuda.is_available())
,如果返回TRUE,则GPU版安装成功。
实验室共享性实例
一、申请实例
1. 申请cpu节点
salloc
salloc 将会分配一个cpu,该语句执行后将会返回cpu编号,我申请返回cpu1
请特别注意,不要在workstation进行其他操作,在cpu、gpu节点进行操作。
2. 切换到CPU节点
ssh cpu1
3. 申请GPU资源
salloc -p gpu-rtx3080ti -N1 -n1 --gres=gpu:1 -t 30-24:00:00
-p gpu-rtx3080ti:表示申请的要申请的分区为gpu-rtx3080ti
-N1:代表申请1个节点
-n1:代表申请1块GPU
–gres=gpu:1:代表每个节点申请1块GPU
-t 30-24:00:00:代表最大占用时间为30天24小时0分0秒
申请成功会返回GPU编号,我申请到的GPU编号为gpu10
4. 切换掉GPU节点
ssh gpu10
接下来就可以在GPU节点安装anaconda、pytorch GPU等。