当前位置: 首页 > article >正文

用LLama factory时报类似Process 2504721 got signal: 1的解决方法

之前用nohup来远程跑LLama factory微调脚本,是没有问题的,但今天发现运行类似下面这个命令时,

nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml

只要一关闭ssh session,就会终止训练,报类似:

nohup torch.distributed.elastic.multiprocessing.api.SignalException: Process 2504721 got signal: 1

的错。解决方法其实也很简单,参考了一下下面这些网页:

nohup后台运行命令,关闭shell后进程会终止_nohup 退出服务器后进程消失-CSDN博客

llamafactory大模型微调单卡转多卡出现SignalException: Process 3232810 got signal: 1错误_torch.distributed.elastic.multiprocessing.api.sign-CSDN博客

针对我上面这个命令,解决方法是,首先输入:

nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml &

然后回车,再在终端里输入exit,然后再关闭ssh session即可。也有朋友说可以用tmux,但是我嫌麻烦就没有尝试:

nohup训练pytorch模型时的报错以及tmux的简单使用 - gy77 - 博客园

就简单总结这么多,主要是现在大模型微调太费事,如果跑了一半出现这种问题真的很让人崩溃。 


http://www.kler.cn/a/614689.html

相关文章:

  • 基于74LS192的十进制两位数正向计时器(proteus仿真)
  • 鸿蒙项目源码-购物商城v2.0-原创!原创!原创!
  • 【Basys3】外设-灯和数码管
  • Agent中的MCP
  • 算法基础——二叉树
  • 混合知识表示系统框架python示例
  • 计算机网络 用deepseek帮助整理的复习资料(一)
  • 5G_WiFi_CE_杂散测试
  • 【C++】右值引用与完美转发
  • 大数据学习(92)-spark详解
  • EasyExcel 与 Apache POI:Java 操作 Excel 的详解
  • MySQL 的 SQL 语句执行顺序
  • IP数据报报文格式
  • Fibonacci集合---优先队列+第几小怎么求
  • 【测试】每日3道面试题 3/30
  • TCP的长连接和短连接,以及它们分别适用于什么场合
  • 【neo4j数据导出并在其他电脑导入】
  • Supplements of My Research Proposal: My Perspectives on the RAG
  • 【数据仓库】湖仓一体的核心建模理论
  • Advanced Renamer:批量文件重命名工具