DeepSeek私有化部署3:openEuler 24.03-LTS-SP1国产化操作系统安装nVidia驱动
上一篇文章中完成了国产化操作系统openEuler 24.03-LTS-SP1的安装和IP地址配置,配置完成后,就回到了办公室用shell工具连接服务器开始操作了
安装好新的操作系统第一步先更新一下
#yum源更新
sudo yum -y update
显卡驱动下载
因为在服务器上安装了6块tesla T4显卡,
先看一下服务器识别到显卡没有
#查看操作系统是否识别到了nVidia的显卡
lspci | grep -i NVIDIA
可以看到操作系统识别到了服务器上安装了6张T4显卡
首先先把nVidia官方的驱动安装上
nVidia驱动官网:https://www.nvidia.cn/geforce/drivers/
操作系统选择Linux 64-bit,其他按照你的显卡类型去选择
下载好驱动后将下载好的驱动文件上传至服务器
禁用nouveau驱动
在安装nVidia官方驱动之前要首先检查nouveau是否启用,如果启用了是不能安装nVidia官方驱动的。
nouveau是一个第三方开源的Nvidia驱动,一般Linux安装的时候默认会安装这个驱动。
这个驱动会与Nvidia官方的驱动冲突,在安装Nvidia驱动和和CUDA之前应先禁用nouveau
#查看系统是否正在使用nouveau
lsmod | grep nouveau
nouveau 2945024 0
mxm_wmi 12288 1 nouveau
drm_exec 16384 1 nouveau
gpu_sched 65536 1 nouveau
drm_display_helper 237568 1 nouveau
drm_ttm_helper 12288 1 nouveau
ttm 106496 2 drm_ttm_helper,nouveau
i2c_algo_bit 12288 2 mgag200,nouveau
video 77824 1 nouveau
drm_kms_helper 270336 11 drm_display_helper,mgag200,nouveau
drm 811008 10 gpu_sched,drm_kms_helper,drm_exec,drm_shmem_helper,drm_display_helper,mgag200,drm_ttm_helper,ttm,nouveau
wmi 40960 4 video,wmi_bmof,mxm_wmi,nouveau
#禁用nouveau驱动
vim /etc/modprobe.d/blacklist-nouveau.conf
#在blacklist-nouveau.conf添加以下两行内容
blacklist nouveau
options nouveau modeset=0
#为当前镜像创建备份
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
#建立新镜像
dracut /boot/initramfs-$(uname -r).img $(uname -r)
#重启操作系统
reboot
重启过程中需要关注一下开机界面,在内核选择界面可能需要手动选择正确的内核,否则可能开机失败,第一次重启的时候系统默认选择了initramfs-6.6.0-72.0.0.81.oe2403sp1.x86_64.img,导致开机失败,断电重启选择了initramfs-6.6.0-77.0.0.76.oe2403sp1.x86_64.img之后才正常进入系统,至于内核应该选择哪个版本应该根据你的系统版本号来选择。
系统重启后
#查看nouveau驱动状态
lsmod | grep nouveau
如果没有输出结果则证明已经禁用成功
安装nVidia官方驱动
把刚刚下载好的驱动上传至服务器成功后,给驱动文件添加可执行权限
在安装驱动之前还应该先检查一下驱动依赖是否完整
#安装驱动依赖
yum -y install kernel-devel kernel-headers gcc pkgconfig libglvnd-devel dkms gcc-c++
#给驱动程序添加可执行权限
chmod +x NVIDIA-Linux-x86_64-570.86.15.run
#执行驱动安装程序,注意kernel-source-path参数,应该以你的实际环境为准
./NVIDIA-Linux-x86_64-570.86.15.run --kernel-source-path=/usr/src/kernels/6.6.0-77.0.0.81.oe2403sp1.x86_64/ --no-x-check --no-opengl-files
驱动安装过程中一路默认按下去就可以了
安装完成后
nvidia-smi
Wed Feb 19 15:31:01 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 570.86.15 Driver Version: 570.86.15 CUDA Version: 12.8 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 Tesla T4 Off | 00000000:3B:00.0 Off | 0 |
| N/A 39C P0 26W / 70W | 1MiB / 15360MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 1 Tesla T4 Off | 00000000:5E:00.0 Off | 0 |
| N/A 42C P0 26W / 70W | 1MiB / 15360MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 2 Tesla T4 Off | 00000000:86:00.0 Off | 0 |
| N/A 43C P0 27W / 70W | 1MiB / 15360MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 3 Tesla T4 Off | 00000000:87:00.0 Off | 0 |
| N/A 44C P0 26W / 70W | 1MiB / 15360MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 4 Tesla T4 Off | 00000000:AF:00.0 Off | 0 |
| N/A 43C P0 26W / 70W | 1MiB / 15360MiB | 4% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 5 Tesla T4 Off | 00000000:D8:00.0 Off | 0 |
| N/A 43C P0 26W / 70W | 1MiB / 15360MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+
已经可以看到驱动版本和支持的最高的cuda版本是12.8
安装cuda
运行nvidia-smi可以看到支持的最高的cuda版本,去nVidia官网下载对应的cuda版本,不高于最高支持版本即可
cuda下载地址:https://developer.nvidia.com/cuda-downloads
以我的12.8版本为例
#下载cuda
wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda_12.8.0_570.86.10_linux.run
#给cuda程序可执行权限
chmod + x cuda_12.8.0_570.86.10_linux.run
跳出这个界面的时候输入“accept”进行下一步
因为前边我们已经安装了驱动程序,这一步就不再选择Driver这个选项,其他保存默认即可。
安装完成后添加cuda的环境变量
#添加环境变量
sudo vim ~/.bashrc
#在文件末尾添加以下两行内容
export PATH="/usr/local/cuda-12.8/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH"
#使环境变量生效
source ~/.bashrc
环境变量生效后输入
nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Wed_Jan_15_19:20:09_PST_2025
Cuda compilation tools, release 12.8, V12.8.61
Build cuda_12.8.r12.8/compiler.35404655_0
cuda就装好了,接下来进行后续操作