当前位置: 首页 > article >正文

Pytorch笔记--RuntimeError: NCCL communicator was aborted on rank 3.

1--分布式并行训练,出现以下bug:

[E ProcessGroupNCCL.cpp:719] [Rank 3] Watchdog caught collective operation timeout: WorkNCCL(SeqNum=1721483, OpType=ALLREDUCE, Timeout(ms)=1800000) ran for 1805695 milliseconds before timing out.

RuntimeError: NCCL communicator was aborted on rank 3.  Original reason for failure was: [Rank 3] Watchdog caught collective operation timeout: WorkNCCL(SeqNum=1721483, OpType=ALLREDUCE, Timeout(ms)=1800000) ran for 1805695 milliseconds before timing out.

[E ProcessGroupNCCL.cpp:406] Some NCCL operations have failed or timed out. Due to the asynchronous nature of CUDA kernels, subsequent GPU operations might run on corrupted/incomplete data. To avoid this inconsistency, we are taking the entire process down.

terminate called after throwing an instance of 'std::runtime_error'

主要原因:

        超时错误,原因可能是CPU线程忙碌(服务器CPU资源不够),导致数据长时间加载不了,从而出现了超时bug。

2--可能的解决方法:

1. 避免超时等待的方法:

        例如减少数据加载的线程(降低num_workers),避免由于CPU线程不足导致的超时问题。

2. 延长超时等待的时间:

        从默认的30min,延长至其他时间:torch.distributed.init_process_group(backend='nccl', init_method='env://', timeout=datetime.timedelta(seconds=5400))

3. 更多方案参考:https://github.com/huggingface/accelerate/issues/314


http://www.kler.cn/a/370661.html

相关文章:

  • Linux下源码编译安装Nginx1.24及服务脚本实战
  • LLM - 大模型 ScallingLaws 的迁移学习与混合训练(PLM) 教程(3)
  • 微信小程序
  • SpringBoot Starter 通用接口加密组件(防篡改)+ RequestBodyAdvice和ResponseBodyAdvice原理
  • CV与NLP经典大模型解读
  • 【python】实现图像中的阴影去除 | 方案和代码
  • C#自定义事件的案例
  • 前端阻止用户调试(禁用F12,禁用右键菜单,禁用查看源代码,禁用复制,无限debugger断点)
  • 【Linux 从基础到进阶】高负载系统的优化与维护
  • Java学习Day51:紫云山金丹培育基地(移动端开发之多表联查,发送短信验证码)
  • Spring Task—定时任务
  • 钉钉日常报销单与金蝶云星空集成技术详解
  • springboot配置websocket
  • 2025秋招八股文--RPC篇
  • 深入理解TCP——面试20问
  • win docker desktop踩坑及解决方案(拉取镜像失败)
  • 前端对一个增删改查的思考
  • 【机器学习】多项式回归
  • 实战OpenCV之深度学习
  • <大厂实战场景> ~ flutter鸿蒙next处理后端返回来的数据的转义问题
  • 大数据-186 Elasticsearch - ELK 家族 Logstash Input插件 JDBC syslog
  • SSRF服务端请求伪造
  • Pandas 数据分析基础操作:从创建到统计的实用指南
  • 人工智能与机器学习相关算法介绍
  • 掌握机器学习中的偏差与方差:模型性能的关键
  • DAPT: Distribution-Aware Prompt Tuning for Vision-Language Models