当前位置: 首页 > article >正文

【大语言模型_6】mindie启动模型错误整理

一、启动报 [hccl_runner.cpp:141] AllGatherHcclRunner:0 HcclCommInitRootInfo fa               il, error:2, rank:0, rankSize:2

背景:运行DeepSeek-R1-Distill-Qwen-14B模型,在2张300 P卡可以运行,单独一张启动报以上错误。

问题分析:hccl在创建通信域时,相应的卡需要分配大约300M的device内存,因此每张卡所在的通信域的数量越多,则额外需要的内存越多,因此会有内存不足的问题。 

参考链接:

分布式并行快问快答来咯!|昇思MindSpore分布式并行FAQ_hccl function error: hcclcomminitrootinfo(numranks-CSDN博客


http://www.kler.cn/a/594407.html

相关文章:

  • Linux的I2C总线的原理和结构详解
  • 爬虫 crawler 入门爬取不设防网页 并实现无限增生
  • ip属地和手机定位区别在哪?是什么
  • Android 第四次面试总结(自定义 View 与事件分发深度解析)
  • [密码学实战]Java实现抗量子Kyber512与Dilithium2算法及详解
  • CAN通信转TCP/IP通信协议解析
  • 涨薪技术|Kubernetes(k8s)之Namespaces详解
  • MCU的应用场景:从智能家居到工业控制
  • Go语言--安装和环境搭配
  • 基于python的Flask模块化设计与蓝图的妙用——打造轻量化Web应用
  • 【QA】QT信号槽底层是怎么实现的?
  • sql server数据迁移,springboot搭建开发环境遇到的问题及解决方案
  • python视频转文本,音频转文本
  • Vue.js 性能优化:虚拟 DOM 与虚拟滚动
  • 太阳能地砖:绿色能源与城市美学的完美融合
  • 工艺品制造行业的现状 内检LIMS系统在工艺品制造的应用
  • 【数学建模】主成分分析(PCA)算法在数学建模中的应用
  • Dify - 架构、部署、扩展与二次开发指南
  • Java 大视界 -- Java 大数据在智慧农业精准灌溉与施肥决策中的应用(144)
  • 前端高级CSS用法