当前位置: 首页 > article >正文

GPU运维常用命令

GPU运维中,常用命令主要用于监控、管理和调试GPU硬件及其相关软件。

以下是一些常见的命令及其用途:

### 1. **NVIDIA-smi 命令**
`nvidia-smi` 是NVIDIA提供的命令行工具,用于监控和管理GPU状态。

- **查看GPU状态**:
  ```bash
  nvidia-smi
  ```
  显示GPU使用率、温度、内存占用等信息。

- **实时监控GPU状态**:
  ```bash
  watch -n 1 nvidia-smi
  ```
  每秒刷新一次GPU状态。

- **查看GPU详细信息**:
  ```bash
  nvidia-smi -q
  ```
  显示GPU的详细信息,包括温度、风扇速度、电源使用等。

- **监控GPU进程**:
  ```bash
  nvidia-smi pmon
  ```
  显示每个GPU上运行的进程及其资源使用情况。

- **设置GPU持久模式**:
  ```bash
  sudo nvidia-smi -pm 1
  ```
  启用持久模式,减少GPU初始化时间。

- **重置GPU**:
  ```bash
  sudo nvidia-smi -r -i <GPU_ID>
  ```
  重置指定GPU(`<GPU_ID>`为GPU编号)。

### 2. **CUDA 相关命令**
- **查看CUDA版本**:
  ```bash
  nvcc --version
  ```
  显示已安装的CUDA版本。

- **查看CUDA设备信息**:
  ```bash
  deviceQuery
  ```
  运行CUDA示例程序,显示CUDA设备信息。

### 3. **进程管理命令**
- **查找使用GPU的进程**:
  ```bash
  nvidia-smi | grep -A 10 Processes
  ```
  显示当前使用GPU的进程。

- **终止使用GPU的进程**:
  ```bash
  kill -9 <PID>
  ```
  终止指定进程(`<PID>`为进程ID)。

### 4. **系统监控命令**
- **查看系统GPU使用情况**:
  ```bash
  gpustat
  ```
  显示系统中所有GPU的使用情况(需安装`gpustat`工具)。

- **监控系统资源**:
  ```bash
  top
  ```
  显示系统资源使用情况,包括CPU、内存等。

### 5. **Docker 相关命令**
- **查看Docker容器中的GPU使用情况**:
  ```bash
  docker stats
  ```
  显示Docker容器的资源使用情况,包括GPU。

- **启动使用GPU的Docker容器**:
  ```bash
  docker run --gpus all <image_name>
  ```
  启动一个使用所有GPU的Docker容器。

### 6. **其他常用命令**
- **查看系统日志**:
  ```bash
  dmesg | grep -i nvidia
  ```
  查看与NVIDIA相关的系统日志信息。

- **检查NVIDIA驱动版本**:
  ```bash
  cat /proc/driver/nvidia/version
  ```
  显示已安装的NVIDIA驱动版本。

### 总结
这些命令涵盖了GPU运维中的监控、管理、调试等常见任务,帮助运维人员有效管理和优化GPU资源。


http://www.kler.cn/a/569712.html

相关文章:

  • 云原生监控篇——全链路可观测性与AIOps实战
  • centos 7 停更后如何升级kernel版本 —— 筑梦
  • JMeter 使用 CSV 及随机 ID 进行登录与增删改查示例
  • LeetCode 模拟章节 (持续更新中)
  • 从零开始用react + tailwindcss + express + mongodb实现一个聊天程序(五) 实现登录功能
  • 分类预测 | Matlab实现CPO-SVM冠豪猪算法优化支持向量机多特征分类预测
  • 深度学习之“雅可比矩阵与黑塞矩阵”
  • 【Word2Vec】Skip-gram 的直观理解(深入浅出)
  • 如何理解语言模型
  • 微服务学习(1):RabbitMQ的安装与简单应用
  • Ubuntu 下查看进程 PID 和终止进程方法
  • 【实战 ES】实战 Elasticsearch:快速上手与深度实践-1.3.1单节点安装(Docker与手动部署)
  • C#核心(20)密封函数和命名空间
  • DNS的解析流程
  • Ubuntu 22.04 安装Nvidia驱动加速deepseek
  • (下:补充——五个模型的理论基础)深度学习——图像分类篇章
  • 【C】链式二叉树算法题1 -- 单值二叉树
  • Pytorch 第六回:AlexNet卷积神经网络模型
  • 使用sam-vit-base 模型在caltech256 数据集上实现图片召回
  • FPGA开发,使用Deepseek V3还是R1(5):temperature设置