大模型训练-gpu显卡训练环境搭建
背景
CentOs7.9系统中,NVIDA A40显卡,安装基于GPU训练的tf环境;
软件版本选择:
驱动:Driver Version: 470.256.02
cuda:CUDA Version: 11.2
cudnn:8.1.1
python:3.8
tf:2.6.0
安装步骤:
1.安装驱动(可问豆包如何卸载之前的版本)
$wget https://cn.download.nvidia.com/XFree86/Linux-x86_64/470.256.02/NVIDIA-Linux-x86_64-470.256.02.run
$chmod a+x NVIDIA-Linux-x86_64-470.256.02.run
$sudo ./NVIDIA-Linux-x86_64-470.256.02.run
2.下载并安装cuda11.2(可问豆包如何卸载之前的版本)
$wget https://developer.download.nvidia.com/compute/cuda/11.2.2/local_installers/cuda_11.2.2_460.32.03_linux.run
$chmod +x cuda_11.2.2_460.32.03_linux.run
$sudo ./cuda_11.2.2_460.32.03_linux.run --toolkit --toolkitpath=你的安装目录/cuda-11.2 --silent
$vi ~/.bashrc
文件末尾添加:
export PATH=你的安装目录/cuda-11.2/bin:$PATH
export LD_LIBRARY_PATH=你的安装目录/cuda-11.2/lib64:$LD_LIBRARY_PATH
3.下载并安装cudnn v8.1.1
NVIDA官网注册,并下载cudnn版本 https://developer.nvidia.com/rdp/cudnn-archive
cudnn-11.2-linux-x64-v8.1.1.33.tgz
$tar -xvf cudnn-11.2-linux-x64-v8.1.1.33.tgz
$sudo cp cuda/include/cudnn*.h 你的安装目录/cuda-11.2/include
$sudo cp cuda/lib64/libcudnn* 你的安装目录/cuda-11.2/lib64
$sudo chmod a+r 你的安装目录/cuda-11.2/include/cudnn*.h 你的安装目录/cuda-11.2/lib64/libcudnn*
验证安装情况:
验证驱动版本
$nvidia-smi
验证cuda版本
$nvcc --version
安装py及tf
$conda create -n tf2.6 python=3.8
$conda activate tf2.6
$pip install tensorflow-gpu==2.6.0
验证gpu是否可用
import tensorflow as tf
print(tf.test.is_gpu_available())
返回true即为可用