当前位置: 首页 > article >正文

cluster-smi 命令详解

cluster-smi 是一个用于管理和监控集群中 GPU 的命令行工具,通常用于显示集群中每个节点(如 GPU 服务器)上的 GPU 使用情况。该命令是类似于 nvidia-smi 的工具,但它支持在集群环境中对多个节点进行管理和监控。

使用 cluster-smi --help 命令会显示:
在这里插入图片描述

单独使用 cluster-smi 命令会出现下面类似界面:
在这里插入图片描述

1. -color

  • 功能:使用彩色输出,以便更容易区分不同信息。默认情况下是启用的。
  • 示例cluster-smi -color,显示彩色的GPU状态信息。

2. -d

  • 功能:显示更详细的视图,包括风扇速度、温度和功率等信息。
  • 示例:如果你希望查看 agpu1 节点的详细信息,你可以运行:
    cluster-smi -d -n agpu1
    
    这会显示 agpu1 上 GPU 的详细运行状态。

3. -e

  • 功能:显示扩展视图,可能包括更多的性能指标、信息或警告等。
  • 示例cluster-smi -e 会显示每个节点的扩展信息。

4. -n string

  • 功能:通过正则表达式匹配节点名称,以仅显示特定节点的信息。如果没有指定,默认显示所有节点的信息。
  • 示例
    • cluster-smi -n "agpu1|server-01" 只显示 agpu1server-01 的信息。
    • cluster-smi -n "server-.*" 显示所有以 server- 开头的节点的信息。

5. -p

  • 功能:显示进程的详细信息。通常用来查看 GPU 上运行的进程,可能包括进程名称、PID 等信息。
  • 示例
    cluster-smi -p -n agpu1
    
    这会显示 agpu1 上所有运行中的进程,帮助你了解哪些进程在占用 GPU 资源。

6. -t

  • 功能:显示事件的时间戳,帮助你追踪 GPU 的状态变化及事件发生的具体时间。
  • 示例
    cluster-smi -t -n server-02
    
    这样你就可以查看 server-02 上的所有事件,并且每个事件都有时间戳。

7. -u string

  • 功能:只显示特定用户的 GPU 信息。如果你想查看某个特定用户在 GPU 上的使用情况,可以使用这个选项。
  • 示例
    cluster-smi -u "user123" -n agpu2
    
    这样就只会显示 agpu2 上属于 user123 用户的 GPU 信息。

示例:结合节点

假设有以下节点: agpu1, agpu2, agpu3, server-01, server-02, server-03, vgpu1, vgpu2

如果想查看所有服务器上 GPU 的状态,可以直接运行:

cluster-smi

如果只关心 agpu1server-02,可以运行:

cluster-smi -n "agpu1|server-02"

如果需要查看详细信息,比如温度、风扇速度、功率等,可以使用:

cluster-smi -d -n "agpu1|agpu2"

如果只想看 agpu3 上某个特定用户(比如 user123)的进程:

cluster-smi -u "user123" -n agpu3

http://www.kler.cn/a/553051.html

相关文章:

  • 游戏引擎学习第109天
  • 为AI聊天工具添加一个知识系统 之112 详细设计之53 3*3 记忆矩阵
  • 【R语言】主成分分析与因子分析
  • Ansys 2025 R1 | 以强大数字工程技术增强协作,拓展云计算及AI并赋能数据洞察
  • 【大模型】DeepSeek:AI浪潮中的破局者
  • 【C#】无法安装程序包“DotSpatial.Symbology 4.0.656”
  • Android 动态加入Activity 时 manifest 注册报错解决。使用manifestPlaceholders 占位
  • 盒马“需要”马云认同
  • 使用python的akshare库读取股票实时数据并保存
  • 【Java】-- 链表的使用及模拟实现
  • 【MySQL】第七弹---深入理解数据库表约束:自增长、唯一键、外键及综合案例解析
  • 51单片机-点亮LED和蜂鸣器
  • java后端开发day17--ArrayList--集合
  • 算法日记20:SC72最小生成树(prim朴素算法)
  • 【AI面板识别】
  • WPF9-数据绑定进阶
  • Bug:Goland debug失效详细解决步骤【合集】
  • 16-省份数量
  • 0081.基于springboot+uni-app的垃圾分类小程序+论文
  • 数据结构与算法学习笔记----计数类DP