防止显卡掉卡的一种方法:nvidia-smi -pm 1
背景
服务器较老,里面的显卡在使用一段时间后会出现掉卡现象
解决方法
在终端输入:nvidia-smi -pm 1
nvidia-smi -pm 1是用于在NVIDIA GPU上启用持久性模式的命令。
NVIDIA GPU的持久性模式是一种能够保持 GPU 在全功率状态下运行的设置。通常情况下,当GPU不再接收到计算任务时,它会自动降低功耗以节省能源。这种自动降低功耗的行为可以在一些场景下带来好处,比如延长电脑电池寿命。但在某些情况下,则需要GPU在闲置时仍保持全功率运行,以便在需要时能够立即响应计算任务。
需要注意的是,启用持久性模式会导致GPU持续消耗较高的功耗,因此在不需要时最好将其禁用,以节省能源并减少热量产生。可以使用nvidia-smi -pm 0命令来禁用持久性模式。
掉卡的其它解决方法
-
温度管理:确保GPU温度在正常范围内。过热可能导致性能下降或系统崩溃。可以使用指令如nvidia-smi监视GPU的温度,并确保良好的散热和通风
-
驱动更新:确保NVIDIA驱动程序是合适的版本
-
硬件问题:检查GPU是否正确安装并连接。有时,松动的电源连接或其他硬件问题可能导致GPU掉卡