当前位置：首页 > article >正文

用LLama factory时报类似Process 2504721 got signal: 1的解决方法

article 2025/4/2 22:22:56

之前用nohup来远程跑LLama factory微调脚本，是没有问题的，但今天发现运行类似下面这个命令时，

nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml

只要一关闭ssh session，就会终止训练，报类似：

nohup torch.distributed.elastic.multiprocessing.api.SignalException: Process 2504721 got signal: 1

的错。解决方法其实也很简单，参考了一下下面这些网页：

nohup后台运行命令，关闭shell后进程会终止_nohup 退出服务器后进程消失-CSDN博客

llamafactory大模型微调单卡转多卡出现SignalException: Process 3232810 got signal: 1错误_torch.distributed.elastic.multiprocessing.api.sign-CSDN博客

针对我上面这个命令，解决方法是，首先输入：

nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml &

然后回车，再在终端里输入exit，然后再关闭ssh session即可。也有朋友说可以用tmux，但是我嫌麻烦就没有尝试：

nohup训练pytorch模型时的报错以及tmux的简单使用 - gy77 - 博客园

就简单总结这么多，主要是现在大模型微调太费事，如果跑了一半出现这种问题真的很让人崩溃。

【Basys3】外设-灯和数码管

Agent中的MCP

算法基础——二叉树

混合知识表示系统框架python示例

5G_WiFi_CE_杂散测试

【C++】右值引用与完美转发

大数据学习（92）-spark详解

MySQL 的 SQL 语句执行顺序

IP数据报报文格式

【测试】每日3道面试题 3/30

【neo4j数据导出并在其他电脑导入】

Advanced Renamer：批量文件重命名工具