当前位置：首页 > article >正文

【Trick】解决服务器cuda报错——RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED

article 2025/2/28 12:33:40

本人在服务器上训练代码时，遇到了以下报错：

Traceback (most recent call last):
  File "/home/ubuntu/zcardvein/zzz_dataAndTrain.py", line 163, in <module>
    preds = model(img_batch)
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
    return forward_call(*args, **kwargs)
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/parallel/data_parallel.py", line 171, in forward
    outputs = self.parallel_apply(replicas, inputs, kwargs)
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/parallel/data_parallel.py", line 181, in parallel_apply
    return parallel_apply(replicas, inputs, kwargs, self.device_ids[:len(replicas)])
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/parallel/parallel_apply.py", line 89, in parallel_apply
    output.reraise()
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/_utils.py", line 644, in reraise
    raise exception
RuntimeError: Caught RuntimeError in replica 0 on device 0.
Original Traceback (most recent call last):
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/parallel/parallel_apply.py", line 64, in _worker
    output = module(*input, **kwargs)
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
    return forward_call(*args, **kwargs)
  File "/home/ubuntu/zcardvein/zzz_dataAndTrain.py", line 31, in forward
    enc1 = self.encoder1(x)
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
    return forward_call(*args, **kwargs)
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/container.py", line 217, in forward
    input = module(input)
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
    return forward_call(*args, **kwargs)
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/conv.py", line 463, in forward
    return self._conv_forward(input, self.weight, self.bias)
  File "/home/ubuntu/miniconda3/lib/python3.9/site-packages/torch/nn/modules/conv.py", line 459, in _conv_forward
    return F.conv2d(input, weight, bias, self.stride,
RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED

通过询问gpt和群友，确定了是cuda自身的问题，因为cpu就能正常运行。

排查步骤主要如下：

1：通过查看显存，发现不是卡的显存炸了。

nvidia-smi

2：通过查看cuda和torch的兼容问题，发现结果是2.0.1+cu117，没问题。

python -c "import torch; print(torch.__version__)"

3：通过查看cuda available，发现结果是True。

4：把device换成cpu，发现代码能正常运行。

device = torch.device("cpu")

其实理论上，换个服务器就能解决我这个问题（）

然后群友说试一下：cudnn禁用。

于是...

5：在需要运行的python文件开头加上cudnn禁用语句

torch.backends.cudnn.enabled = False

结果就能正常动起来了！

查看全文

http://www.kler.cn/a/452303.html

前端三大主流框架：React、Vue、Angular

网络管理-期末项目（附源码）

PySide6如何实现点击TableWidget列表头在该列右侧显示列表选择框筛选列数据

数据仓库是什么？数据仓库简介

设计一个自己的AI Agent

.NET 9 中的多级缓存 HybridCache

Android绘图Path基于LinearGradient线性动画渐变，Kotlin（2）

HarmonyOS NEXT 实战之元服务：静态案例效果---电台推荐

【1224】数据结构（sizeof/数组的长度定义/读取字符串函数/线性表长度/左值右值/静态变量/指针与引用）

WPF自定义窗口输入验证不生效

SpringBoot3-第四篇（基础特性）

Mybatisplus如何使用selectPage

接口测试Day03-postman断言关联

HuaWei、NVIDIA 数据中心 AI 算力对比

谈谈JSON

DigitalOcean Droplet 云服务器：新增自动扩展池功能

npm : 无法加载文件 D:\Nodejs\node_global\npm.ps1，因为在此系统上禁止运行脚本

openwrt 负载均衡方法 openwrt负载均衡本地源接口

08 Django - Django媒体文件静态文件文件上传

Ubuntu存储硬盘扩容-无脑ChatGPT方法

相关文章：