当前位置：首页 > article >正文

记一次pytorch训练loss异常的问题

article 2025/2/27 18:07:04

记一次pytorch训练loss异常的问题

问题描述

使用mmdetection框架训练时，某项loss出现异常大的值，比如1781232349724294.000。这个问题只在多卡训练时才会出现。

解决方法

在确认target和predction没有问题后，发现是在dataset中的数据处理出现了问题。在dataset中的__getitem__函数中，对数据进行了处理，但是在处理时，将数据转换为了numpy格式，而没有将其他dtype转换为float32，导致了数据类型不匹配，从而导致了loss异常。将数据转换为float32后，问题解决。
numpy生成的数据默认为float64，而pytorch默认为float32，所以在处理数据时，需要注意数据类型的转换。

http://www.kler.cn/a/563458.html

相关文章：

驱动开发系列39 - Linux Graphics 3D 绘制流程（二）- 设置渲染管线

系统架构设计：软件测试需要掌握的常用方法

MySQL的锁机制和锁算法

卷积这个词在卷积神经网络中应该怎么理解

Unity XR-XR Interaction Toolkit开发使用方法（十一）组件介绍（XR Interactable）

Redis｜复制 REPLICA

python的列表和元组别再傻傻分不清啦

C# WinForm 中的事件驱动模型

Java 算法和数据结构答案整理，最新面试题

计算机毕业设计SpringBoot+Vue.js大创管理系统(源码+文档+PPT+讲解)

大模型面试问题准备

力扣（leetcode）每日一题 1472 设计浏览器历史记录 - 数组

2025全新版Java多语言跨境电商系统

Spring Boot 中 @Transactional 注解全面解析

git 国内源

第4章 4.5 查看EF Core生成的SQL语句

C# 单元测试 xUnit、NUnit 与 MTest

SOC-ATF 安全启动BL1流程分析（1）

【课堂笔记】线性回归梯度下降的矩阵求导推导

redis-bitmap使用场景