GPU运维常用命令
GPU运维中,常用命令主要用于监控、管理和调试GPU硬件及其相关软件。
以下是一些常见的命令及其用途:
### 1. **NVIDIA-smi 命令**
`nvidia-smi` 是NVIDIA提供的命令行工具,用于监控和管理GPU状态。
- **查看GPU状态**:
```bash
nvidia-smi
```
显示GPU使用率、温度、内存占用等信息。
- **实时监控GPU状态**:
```bash
watch -n 1 nvidia-smi
```
每秒刷新一次GPU状态。
- **查看GPU详细信息**:
```bash
nvidia-smi -q
```
显示GPU的详细信息,包括温度、风扇速度、电源使用等。
- **监控GPU进程**:
```bash
nvidia-smi pmon
```
显示每个GPU上运行的进程及其资源使用情况。
- **设置GPU持久模式**:
```bash
sudo nvidia-smi -pm 1
```
启用持久模式,减少GPU初始化时间。
- **重置GPU**:
```bash
sudo nvidia-smi -r -i <GPU_ID>
```
重置指定GPU(`<GPU_ID>`为GPU编号)。
### 2. **CUDA 相关命令**
- **查看CUDA版本**:
```bash
nvcc --version
```
显示已安装的CUDA版本。
- **查看CUDA设备信息**:
```bash
deviceQuery
```
运行CUDA示例程序,显示CUDA设备信息。
### 3. **进程管理命令**
- **查找使用GPU的进程**:
```bash
nvidia-smi | grep -A 10 Processes
```
显示当前使用GPU的进程。
- **终止使用GPU的进程**:
```bash
kill -9 <PID>
```
终止指定进程(`<PID>`为进程ID)。
### 4. **系统监控命令**
- **查看系统GPU使用情况**:
```bash
gpustat
```
显示系统中所有GPU的使用情况(需安装`gpustat`工具)。
- **监控系统资源**:
```bash
top
```
显示系统资源使用情况,包括CPU、内存等。
### 5. **Docker 相关命令**
- **查看Docker容器中的GPU使用情况**:
```bash
docker stats
```
显示Docker容器的资源使用情况,包括GPU。
- **启动使用GPU的Docker容器**:
```bash
docker run --gpus all <image_name>
```
启动一个使用所有GPU的Docker容器。
### 6. **其他常用命令**
- **查看系统日志**:
```bash
dmesg | grep -i nvidia
```
查看与NVIDIA相关的系统日志信息。
- **检查NVIDIA驱动版本**:
```bash
cat /proc/driver/nvidia/version
```
显示已安装的NVIDIA驱动版本。
### 总结
这些命令涵盖了GPU运维中的监控、管理、调试等常见任务,帮助运维人员有效管理和优化GPU资源。