当前位置：首页 > article >正文

系列2:基于Centos-8.6Kubernetes 集成GPU资源信息

article 2025/3/1 21:19:42

每日禅语

自省，就是自我反省、自我检查，自知己短，从而弥补短处、纠正过失。佛陀强调自觉觉他，强调以达到觉行圆满为修行的最高境界。要改正错误，除了虚心接受他人意见之外，还要不忘时时观照己身。自省自悟之道，可以使人在不断的自我反省中达到水一样的境界，在至柔之中发挥至刚至净的威力，具有广阔的胸襟和气度。“知人者智，自知者明。”观水自照，可知自身得失。人生在世，若能时刻自省，还有什么痛苦、烦恼是不能排遣、摆脱的呢？佛说：“大海不容死尸。”水性是至洁的，表面藏垢纳污，实质水净沙明，至净至刚，不为外物所染。

1.Nvidia gpu驱动安装

1.1确认当前英伟达显卡的型号

1.2获取对应的gpu型号

打开网站查询：https://admin.pci-ids.ucw.cz/read/PC/10de 拖到底部的查询框输出2216,点击查询即可,输出显示类似的如下信息即可得知gpu型号

1.3下载nvidia驱动

1.4nvidia gpu驱动安装

#将下载的gpu驱动文件上传到服务器安装即可
yum install gcc make -y
#直接安装即可,视情况加参数
chmod a+x NVIDIA-Linux-x86_64-550.90.07.run
./NVIDIA-Linux-x86_64-550.90.07.run

2.安装NVIDIA Container Toolkit

目的：配置 NVIDIA Container Toolkit 仓库并安装相关包的操作是为了在 CentOS 系统上设置 NVIDIA Container Toolkit。这些步骤允许 Docker 容器访问 GPU 资源。

2.1步骤一：配置生产仓库

curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \ sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

操作内容解析

curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo：使用 curl 下载 NVIDIA Container Toolkit 的 yum repository 配置文件。
sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo：将下载的仓库配置文件写入 /etc/yum.repos.d/nvidia-container-toolkit.repo，使系统可以从该仓库安装相关软件包。

2.2安装 NVIDIA Container Toolkit

sudo yum install -y nvidia-container-toolkit

操作内容解析

sudo yum install -y nvidia-container-toolkit：使用 yum 命令安装 nvidia-container-toolkit 软件包。安装之后，系统会获得一组工具，这些工具允许 Docker 容器能够访问 GPU。

2.3配置 containerd（适用于 Kubernetes）

sudo nvidia-ctk runtime configure --runtime=containerd --config=/etc/containerd/config.toml
sudo systemctl restart containerd

3.k8s安装nvidia-device-plugin插件

#查看节点资源情况
#这说明k8s节点没有识别到gpu资源,即使当前节点有gpu资源
kubectl  describe  nodes  gpu 
Capacity:
  cpu:                40
  ephemeral-storage:  51175Mi
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             16417696Ki
  pods:               110

#k8s中要识别gpu资源，需要安装nvidia-device-plugin插件,注册分配gpu主要由device-plugin插件完成
#官网:https://github.com/NVIDIA/k8s-device-plugin
wget https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.1/nvidia-device-plugin.yml
#vim nvidia-device-plugin.yml #该文件存在hostpath的卷,确认kubelet的安装路径正确
kubectl apply -f nvidia-device-plugin.yml
kubectl  get pod -n kube-system  | grep nvidia-device-plugin
#再次查看k8s的gpu节点资源情况就可以显示gpu资源了
kubectl  describe  nodes gpu
...........
Capacity:
  cpu:                40
  ephemeral-storage:  51175Mi
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             16417696Ki
  nvidia.com/gpu:     2				#2个gpu显卡
  pods:               110

查看全文

http://www.kler.cn/a/444516.html