dcgm-exporter 采集指标项
指标 | 解释 |
---|---|
dcgm_fan_speed_percent | GPU风扇转速占比(%) |
dcgm_sm_clock | GPU sm 时钟(MHz) |
dcgm_memory_clock | GPU 内存时钟(MHz) |
dcgm_gpu_temp | GPU 运行的温度(℃) |
dcgm_power_usage | GPU 的功率(w) |
dcgm_pcie_tx_throughput | GPU PCIeTX 传输的字节总数 (kb) |
dcgm_pcie_rx_throughput | GPU PCIeRX 接收的字节总数 (kb) |
dcgm_pcie_replay_counter | GPU PCIe重试的总数 |
dcgm_gpu_utilization | GPU 利用率(%) |
dcgm_mem_copy_utilization | GPU 内存利用率(%) |
dcgm_enc_utilization | GPU 编码器利用率(%) |
dcgm_dec_utilization | GPU 解码器利用率(%) |
dcgm_xid_errors | GPU 上一个xid错误的值 |
dcgm_power_violation | GPU 功率限制导致的节流持续时间(us) |
dcgm_thermal_violation | GPU 热约束节流持续时间(us) |
dcgm_sync_boost_violation | GPU 同步增强限制,限制持续时间(us) |
dcgm_fb_free | GPUfb(帧缓存)的剩余(MiB) |
dcgm_fb_used | GPUfb(帧缓存)的使用(MiB) |