用LLama factory时报类似Process 2504721 got signal: 1的解决方法
之前用nohup来远程跑LLama factory微调脚本,是没有问题的,但今天发现运行类似下面这个命令时,
nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml
只要一关闭ssh session,就会终止训练,报类似:
nohup torch.distributed.elastic.multiprocessing.api.SignalException: Process 2504721 got signal: 1
的错。解决方法其实也很简单,参考了一下下面这些网页:
nohup后台运行命令,关闭shell后进程会终止_nohup 退出服务器后进程消失-CSDN博客
llamafactory大模型微调单卡转多卡出现SignalException: Process 3232810 got signal: 1错误_torch.distributed.elastic.multiprocessing.api.sign-CSDN博客
针对我上面这个命令,解决方法是,首先输入:
nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml &
然后回车,再在终端里输入exit,然后再关闭ssh session即可。也有朋友说可以用tmux,但是我嫌麻烦就没有尝试:
nohup训练pytorch模型时的报错以及tmux的简单使用 - gy77 - 博客园
就简单总结这么多,主要是现在大模型微调太费事,如果跑了一半出现这种问题真的很让人崩溃。