当前位置：首页 > article >正文

安装 Docker GPU 版本的过程及遇到的坑

article 2025/1/17 23:45:06

首先，安装的 Docker 版本并不支持 GPU，因此需要安装支持 GPU 的 Docker 版本。然而，在安装和配置过程中，遇到了一系列问题和挑战。

错误的安装步骤

以下是我在尝试安装 GPU 版本时，执行的错误操作：

# 安装 NVIDIA 驱动
sudo apt-get update
sudo apt-get install -y nvidia-driver-460

# 添加 NVIDIA 运行时配置
sudo mkdir -p /etc/systemd/system/docker.service.d
sudo tee /etc/systemd/system/docker.service.d/override.conf <<EOF
[Service]
ExecStart=
ExecStart=/usr/bin/dockerd --host=fd:// --add-runtime=/usr/bin/nvidia
EOF

# 重新启动 Docker 服务
sudo systemctl daemon-reload
sudo systemctl restart docker

这段脚本是根据 GPT 提供的方案执行的，但我没有注意到它可能会导致一些问题。最终我发现，在执行完该脚本后，Docker 无法启动，并且出现了以下错误：

xtx@dell-PowerEdge-R750:~$ nvidia-docker --version
nvidia-docker: command not found

发现问题：NVIDIA 驱动安装冲突

接下来，我发现 nvidia-smi 无法执行，也无法找到 NVIDIA 相关的命令。通过检查 NVIDIA 驱动，发现系统中安装了多个版本的 NVIDIA 驱动。

dpkg -l | grep nvidia

于是，我尝试卸载了 nvidia-driver-460，但问题依旧存在：

sudo apt-get remove --purge nvidia-driver-460

多次尝试卸载仍然没有解决问题，驱动仍然有冲突。于是决定彻底清理所有 NVIDIA 驱动，并重新安装：

# 清除所有 NVIDIA 驱动
sudo apt-get purge nvidia*

# 更新包管理器
sudo apt-get update

# 安装正确版本的 NVIDIA 驱动
sudo apt-get install nvidia-driver-470 nvidia-utils-470

重新安装驱动后，虽然成功安装了 NVIDIA 驱动，但执行 nvcc -V 命令时没有任何输出。这时我怀疑问题可能与 CUDA Toolkit 无关，因为在安装驱动时并没有安装 CUDA。

权限问题及解决

接下来，我检查了 ~/.bashrc 文件，确认路径没有问题。然而，考虑到权限问题，我以 root 用户身份进行检查，发现没有问题。这一步解决了驱动的问题。

安装 Docker GPU 版本及其问题

接下来，我按照官方教程安装 Docker 的 GPU 版本，并配置了相应的 NVIDIA 运行时。但在启动 Docker 时，遇到了如下错误：

(tx) xtx@dell-PowerEdge-R750:/data/xtx/nnUNet/nnunetv2/inference$ systemctl status docker.service
Warning: The unit file, source configuration file or drop-ins of docker.service changed on disk. Run 'systemctl daemon-reload' to reload units.
× docker.service - Docker Application Container Engine
     Loaded: loaded (/lib/systemd/system/docker.service; enabled; vendor preset: enabled)
    Drop-In: /etc/systemd/system/docker.service.d
             └─override.conf
     Active: failed (Result: exit-code) since Thu 2025-01-16 13:39:52 CST; 7min ago
TriggeredBy: × docker.socket
       Docs: https://docs.docker.com
    Process: 113728 ExecStart=/usr/bin/dockerd --host=fd:// --add-runtime=/usr/bin/nvidia (code=exited, status=1/FAILURE)
   Main PID: 113728 (code=exited, status=1/FAILURE)
        CPU: 92ms

解决问题的过程

一开始，我尝试按照网上的建议修改 /etc/docker/daemon.json 文件，切换到国内镜像源。然而，修改后仍然报错。接着，我打开了 override.conf 文件，发现最初配置中使用了 ExecStart=/usr/bin/dockerd --host=fd:// --add-runtime=/usr/bin/nvidia 这一行，而这一行实际上导致了启动失败。

最终，我删除了这行配置，并重新加载并重启了 Docker 服务：

# 重新加载 systemd 配置
sudo systemctl daemon-reload

# 重启 Docker 服务
sudo systemctl restart docker

此时，Docker 成功启动，问题得到解决。

简单总结一下

平常使用GPT习惯了，感觉简单问题直接按照它的命令行输入就行，没有仔细理解该指令背后的含义，从而导致版本冲突。另外，发生问题太依赖GPT和教程了，缺少自己的反思。

再面对类似的问题时，应该从头逐步排除法，从系统配置到具体服务的每一步都要仔细检查。解决问题的关键往往是细致入微的排查和多角度的分析。即便是看似简单的操作，背后也可能隐藏着复杂的系统交互和配置依赖。

查看全文

http://www.kler.cn/a/507073.html

DNS介绍与部署-Day 01

Kafka常用命令

Lianwei 安全周报|2025.1.13

简单组合逻辑

VUE学习笔记4__安装开发者工具

Android BitmapShader更简易的实现刮刮乐功能，Kotlin

ubuntu开机自启某个应用

《机器学习》自然语言处理之TF-IDF

实力认证 | 海云安入选《信创安全产品及服务购买决策参考》

新质生产力与数字化转型

【Go】Go数据类型详解—数组与切片

mac 安装 node

需求驱动的具身导航！DDN：基于用户需求的目标导航任务

镭速大文件传输视频文件预览实现原理

Oracle保留小数点后两位

基于FPGA的多功能数字钟设计

获取当前页面的url相关信息

万物互联的背后：MCU嵌入式硬件的奇幻之旅

理解CPU负载与使用率

Java语言的数据结构

电力场景红外测温图像绝缘套管分割数据集labelme格式2436张1类别

C++ QT 自绘呼吸灯

SpringSecurity详解

Java语言的软件工程

Python----Python高级（面向对象：对象，类，属性，方法）

wireshark抓路由器上的包抓包路由器数据