当前位置: 首页 > article >正文

【bug】使用transformers训练二分类任务时,训练损失异常大

使用transformers训练二分类任务时,训练损失异常大

  • 问题
  • 分析

问题

training_loss异常大,在二分类损失中,收敛在1~2附近,而eval_loss却正常(小于0.5)

分析

参考:
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库(以及对应的trl库),DPO训练的时候LOSS变为之前的好几倍
New GA fix causes training loss multiple times higher across the board (5x to 10x higher)

版本:trainsformer==4.46.0

怀疑启用training_args.gradient_accumulation_steps后,training_loss变大。
请添加图片描述

请添加图片描述

对比后发现,确实启用GA后,training_loss会变大,差不多是不启用GA的4倍。

这下差不多可以确定,在启用GA后,training_loss乘上了GA。

看到社区也有很多人在讨论这个问题,目前transformers最新版本是4.46.3,不知道是否解决了这个问题。

最新版本是4.46.3,不知道是否解决了这个问题。

transformers怎么这么多bug…


20241122:实测4.46.3版本还是未解决使用GA后,训练损失偏大的问题。


http://www.kler.cn/a/405438.html

相关文章:

  • ChatClient:探索与AI模型通信的Fluent API
  • Vue 3 自定义插件开发
  • 冲破AI 浪潮冲击下的 迷茫与焦虑
  • 什么是Hadoop
  • 音视频pts/dts
  • 低速接口项目之串口Uart开发(二)——FIFO实现串口数据的收发回环测试
  • HarmonyOs鸿蒙开发实战(21)=>组件间通信@ohos/liveeventbus
  • vue2 + iview(view-design) 中封装使用 vxe-table 处理表格渲染大量数据卡顿现象
  • 后端返回二进制流前端导出下载excel文件
  • Vue 项目中如何使用FullCalendar 时间段选择插件(类似会议室预定、课程表)
  • VMware虚拟机Ubuntu桥接模式突然连接不上网络解决办法
  • 类文件结构详解.上
  • Linux-Apache静态资源
  • 【SpringBoot】发送各种复杂格式的邮件
  • Centos 8, add repo
  • .net 8使用hangfire实现库存同步任务
  • 分布式锁RedissonClient应用
  • 某车企ASW面试笔试题
  • Linux tcpdump 详解教程
  • 海盗王集成网关和商城服务端功能golang版
  • 重构代码之引入本地扩展
  • 【IOS】编译缓存错误Library/Caches/com.apple.mobile.installd.staging
  • 直流电表精准计量,为光伏产业续航
  • 2025蓝桥杯(单片机)备赛--扩展外设之UART1的原理与应用(十二)
  • 分治法的魅力:高效解决复杂问题的利器
  • 什么是axios?怎么使用axios封装Ajax?