远程服务器训练模型,使用tmux防止训练终止
我们在远程服务器训练模型时,如果本地机因为某些原因导致ssh连接断开,那么远程服务器上正在跑模型的进程也可能会终止。此时可以尝试使用tmux来防止因ssh连接断开而导致的进程终止。
步骤:
- ubuntu上安装tmux:
sudo apt-get install tmux
。 - 启动一个tmux会话:
tmux new-session -s [自定义会话名称,比如我的叫experiment_session]
,那就是tmux new-session -s experiment_session
。 - 列出所有的tmux会话:
tmux ls
。 - 在tmux中运行脚本:
./experiment.sh
。 - 退出当前tmux会话,但保持脚本运行:
按下 Ctrl + b,然后松开后按 d
,这将从当前会话中分离出来。此时,脚本仍会在后台运行。 - 返回tmux会话:
tmux new-session -s [定义的会话名称,比如我的叫experiment_session]
,那就是tmux attach-session -t experiment_session
。