当前位置: 首页 > article >正文

大模型训练底座-多集群管理

目录

1 背景

2 多集群管理工具

2.1 Kubefed

2.2 Liqo

3 多集群管理平台

3.1 架构说明

3.2 组件列表

3.3 多集群管理

3.3.1 多集群部署

3.3.2 多集群离线部署

3.3.3 多集群验证

3.3.3.1 联邦资源介绍

3.3.3.2 联邦资源部署

3.3.3.3 联邦资源访问

3.4 添加/删除集群节点

4 FAQ

  1. 背景

Considerations for large clusters

A cluster is a set of nodes (physical or virtual machines) running Kubernetes agents, managed by the control plane. Kubernetes v1.31 supports clusters with up to 5,000 nodes. More specifically, Kubernetes is designed to accommodate configurations that meet all of the following criteria:

No more than 110 pods per node

No more than 5,000 nodes

No more than 150,000 total pods

No more than 300,000 total containers

正是基于大规模集群的思考,kubernetes提出多集群管理方案kubefed,进一步在以下三个方面进行优化:

可用性:单集群无法应对网络故障或者数据中心故障导致的服务的不可用

隔离性:基于namsapce隔离无法做到真正的物理隔离

扩展性:突破单集群5000个节点上限

  1. 多集群管理工具
    1. Kubefed

定义专属的API server:通过一套统一的中心化API来管理多集群以及机器资源。KubeFed就是采用的这种方法,通过扩展k8s API对象来管理应用在跨集群的分布。

    1. Liqo

基于Virtual Kubelet:Virtual Kubelet本质上是允许我们冒充Kubelet的行为来管理virtual node的机制。这个virtual node的背后可以是任何物件,只要virtual node能够做到上报node状态、和pod的生命周期管理。Liqo就是通过定制的virtual kubelet来实现多集群管理。

目前的社区的virtual kubelet 不具备任何生产能力,但是提供了一个library,可以给各家公有云厂商,用来构建自己的virtual kubelet 版本,所以适用场景为对接第三方公有云的计算。

  1. 多集群管理平台
    1. 架构说明

    1. 组件列表

后端组件

功能说明

ks-apiserver

整个集群管理的 API 接口和集群内部各个模块之间通信的枢纽,以及集群安全控制。

ks-console

提供 KubeSphere 的控制台服务。

ks-controller-manager

实现业务逻辑的,例如创建企业空间时,为其创建对应的权限;或创建服务策略时,生成对应的 Istio 配置等。

metrics-server

Kubernetes 的监控组件,从每个节点的 Kubelet 采集指标信息。

Prometheus

提供集群,节点,工作负载,API对象的监视指标和服务。

Elasticsearch

提供集群的日志索引、查询、数据管理等服务,在安装时也可对接您已有的 ES 减少资源消耗。

Fluent Bit

提供日志接收与转发,可将采集到的⽇志信息发送到 ElasticSearch、Kafka。

Jenkins

提供 CI/CD 流水线服务。

Source-to-Image

将源代码自动将编译并打包成 Docker 镜像,方便快速构建镜像。

Istio

提供微服务治理与流量管控,如灰度发布、金丝雀发布、熔断、流量镜像等。

Jaeger

收集 Sidecar 数据,提供分布式 Tracing 服务。

OpenPitrix

提供应用程序生命周期管理,例如应用模板、应用部署与管理的服务等。

Alert

提供集群、Workload、Pod、容器级别的自定义告警服务。

Notification

是一项综合通知服务; 它当前支持邮件传递方法。

Redis

将 ks-console 与 ks-account 的数据存储在内存中的存储系统。

OpenLDAP

负责集中存储和管理用户帐户信息与对接外部的 LDAP。

Storage

内置 CSI 插件对接云平台存储服务,可选安装开源的 NFS/Ceph/Gluster 的客户端。

Network

可选安装 Calico/Flannel 等开源的网络插件,支持对接云平台 SDN。

    1. 多集群管理
      1. 多集群离线部署

Step 1  #如需使用 kk 离线部署镜像仓库,添加 --with-registry 打包镜像仓库的安装文件

./kk create manifest --with-kubernetes v1.22.17 --with-registry

Step 2  #执行以下命令构建包含 ks-core 及各扩展组件镜像的离线安装包

./kk artifact export -m manifest-sample.yaml -o kubesphere.tar.gz

注: 临时目录/data/zwxu/kubesphere/kubekey/artifact

Step 3  #安装镜像仓库

./kk init registry -f config-sample.yaml -a kubesphere.tar.gz

注: 安装目录/opt/harbor,若部署有问题,重新install.sh

Step 4  #创建 harbor 项目

./create_project_harbor.sh

Step 5  #执行以下命令安装 KubeSphere 集群

./kk create cluster -f config-sample.yaml -a kubesphere.tar.gz

Step 6  #执行以下命令查看集群状态

kubectl logs -n kubesphere-system $(kubectl get pod -n kubesphere-system -l 'app in (ks-install, ks-installer)' -o jsonpath='{.items[0].metadata.name}') -f

附件config-sample.yaml中的harbor配置

  ...

  registry:

type: harbor

    auths:

      "172.31.132.99":

        username: admin

        password: Harbor12345

        plainHTTP: true

    privateRegistry: "172.31.132.99"

    namespaceOverride: "kubesphereio"

    registryMirrors: []

    insecureRegistries: ["172.29.232.69"]

  addons: []

...

附件manifest-sample.yaml

以下 manifest 文件中的镜像列表仅为示例,建议通过 https://get-images.kubesphere.io/ 获取最新的镜像列表

apiVersion: kubekey.kubesphere.io/v1alpha2

kind: Manifest

metadata:

  name: sample

spec:

  arches:

  - amd64

  - arm64

  kubernetesDistributions:

  - type: kubernetes

    version: v1.22.17

  components:

    helm:

      version: v3.14.3

    cni:

      version: v1.2.0

    etcd:

      version: v3.4.13

    containerRuntimes:

    - type: docker

      version: 24.0.9

    - type: containerd

      version: 1.7.13

    calicoctl:

      version: v3.27.3

    crictl:

      version: v1.29.0

    docker-registry:

      version: "2"

    harbor:

      version: v2.10.1

    docker-compose:

      version: v2.26.1

  images:

  # kubesphere

  - registry.cn-beijing.aliyuncs.com/kubesphereio/ks-installer:v3.4.1

  - registry.cn-beijing.aliyuncs.com/kubesphereio/ks-controller-manager:v3.4.1

  - registry.cn-beijing.aliyuncs.com/kubesphereio/ks-console:v3.4.1

  - registry.cn-beijing.aliyuncs.com/kubesphereio/ks-apiserver:v3.4.1

  # kubernetes

  - registry.cn-beijing.aliyuncs.com/kubesphereio/pause:3.5

  - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-apiserver:v1.22.17

  - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-controller-manager:v1.22.17

  - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-scheduler:v1.22.17

  - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-proxy:v1.22.17

  - registry.cn-beijing.aliyuncs.com/kubesphereio/coredns:1.9.3

  - registry.cn-beijing.aliyuncs.com/kubesphereio/k8s-dns-node-cache:1.22.20

  - registry.cn-beijing.aliyuncs.com/kubesphereio/node-exporter:v1.3.1

  - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-rbac-proxy:v0.11.0

  - registry.cn-beijing.aliyuncs.com/kubesphereio/metrics-server:v0.4.5

  - registry.cn-beijing.aliyuncs.com/kubesphereio/prometheus:v2.39.1

  - registry.cn-beijing.aliyuncs.com/kubesphereio/alertmanager:v0.23.0

  - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-state-metrics:v2.6.0

  - registry.cn-beijing.aliyuncs.com/kubesphereio/provisioner-localpv:3.3.0

  # calico

  - registry.cn-beijing.aliyuncs.com/kubesphereio/cni:v3.27.3

  - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-controllers:v3.27.3

  - registry.cn-beijing.aliyuncs.com/kubesphereio/node:v3.27.3

  - registry.cn-beijing.aliyuncs.com/kubesphereio/pod2daemon-flexvol:v3.27.3

  registry:

    auths: {}

附件create_project_harbor.sh

#!/usr/bin/env bash

url="https://dockerhub.kubekey.local"  # 或修改为实际镜像仓库地址

user="admin"

passwd="Harbor12345"

harbor_projects=(

        kubesphereio

)

for project in "${harbor_projects[@]}"; do

    echo "creating $project"

    curl -u "${user}:${passwd}" -X POST -H "Content-Type: application/json" "${url}/api/v2.0/projects" -d "{ \"project_name\": \"${project}\", \"public\": true}" -k  # 注意在 curl 命令末尾加上 -k

done

      1. 主集群开启

前提已安装kubesphere集群

Step1 编辑配置

kubectl edit cc ks-installer -n kubesphere-system

---

multicluster:

    clusterRole: host

hostClusterName: aicc

---

Step2 验证配置

kubectl logs -n kubesphere-system $(kubectl get pod -n kubesphere-system -l 'app in (ks-install, ks-installer)' -o jsonpath='{.items[0].metadata.name}') -f

会自动安装tower和kubefed

查看主集群

kubectl -n kubesphere-system get cm kubesphere-config -o yaml | grep -v "apiVersion" | grep jwtSecret

      1. 成员集群开启

前提已安装kubesphere集群

Step1 编辑配置

kubectl edit cc ks-installer -n kubesphere-system

---

authentication:

    jwtSecret: "********"

multicluster:

    clusterRole: member

---

Step2 验证配置

kubectl logs -n kubesphere-system $(kubectl get pod -n kubesphere-system -l 'app in (ks-install, ks-installer)' -o jsonpath='{.items[0].metadata.name}') -f

      1. 导入成员集群

      1. 集群列表查看

主集群执行kubectl get cluster

      1. 多集群验证
        1. 联邦资源介绍

被联邦管理的k8s API资源统称为Federated Resources(通过kubectl get FederatedTypeConfig --all-namespaces查看当前联邦资源),如果要新增新的 federate type api,执行 kubefedctl enable

Federated Resources的spec分成3个基础配置:

template:原资源类型的spec

placement:定义期望部署的集群

overrides:定义集群特定配置,基于原资源类型的spec进行修改,比如副本数的变化

示例如下

        1. 联邦资源部署

多集群应用自动分发部署

apiVersion: types.kubefed.io/v1beta1

kind: FederatedDeployment

metadata:

  name: test-nginx

  namespace: test-namespace

spec:

  template:

    metadata:

      labels:

        app: nginx

    spec:

      replicas: 1

      selector:

        matchLabels:

          app: nginx

      template:

        metadata:

          labels:

            app: nginx

        spec:

          containers:

          - image: nginx:1.20

            name: nginx

  placement:

    clusters:

    - name: hefei

        1. 联邦资源访问

https://github.com/kubesphere/kubesphere/blob/v3.4.1/api/openapi-spec/swagger.json

通过接口文档的集群列表接口(即/apis/cluster.kubesphere.io/v1alpha1/clusters),获取集群的配置文件kubeconfig,从而进行多集群资源访问

接口查询示例如下

    1. 添加/删除集群节点

原有节点信息不变,在hosts、roleGroups进行增量新增节点信息

apiVersion: kubekey.kubesphere.io/v1alpha2

kind: Cluster

metadata:

  name: sample

spec:

  hosts:

    - {name: node-172-31-132-99, address: 172.31.132.99, internalAddress: 172.31.132.99, user: root, password: "xylx1.T2020!", arch: arm64}

    - {name: node-172-31-132-49, address: 172.31.132.49, internalAddress: 172.31.132.49, user: root, password: "xylx1.T2020!", arch: arm64}

  roleGroups:

    etcd:

    - node-172-31-132-99

    control-plane:

    - node-172-31-132-99

    worker:

    - node-172-31-132-99

    - node-172-31-132-49

添加节点

./kk add nodes -f config-sample.yaml -a kubesphere.tar.gz

注:--with-packages为安装操作操作依赖

单集群节点添加成功截图

删除节点

#驱逐节点上的容器

kubectl drain node3

./kk delete node node3 -f config-sample.yaml

结果: 17:02:50 CST Pipeline[DeleteNodePipeline] execute successfully

  1. FAQ

Q1:10:58:40 CST [ERRO] node-172-31-132-99: socat is required

A1:yum install -y socat

Q2:No SHA256 found for kubeadm. v1.22.17 is not supported./error: Unsupported KubeSphere version: v3.4.1

A2:./kk version --show-supported-k8s 升级kubekey版本

wget "https://kubernetes.pek3b.qingstor.com/kubekey/releases/download/v3.1.2/kubekey-v3.1.2-linux-arm64.tar.gz"

Q3:主集群未就绪

A3:Tower 和 kubefed-controller-manager不健康

注: 多集群功能启用后,主集群上会安装 Tower 和 controller-manager。如果您使用代理连接,成员集群仅需要 Tower。如果您使用直接连接,成员集群无需额外组件

Q4:成员集群未就绪

A4:主集群上ks-controller-manager不健康

Q5: The number of registry must be greater then 0.

A5: 增加registry节点,

即registry:

- ifly-172-29-232-69

Q6:unauthorized: authentication required

A6:新建项目kubesphereio

Q7: push image multi-arch manifest failed

A7: kubekey3.1.2升级为3.1.7

Q8: 提示文件语法错误

A8: 检查config-sample.yaml对应配置是否存在

Q9:有些pod镜像项目不是kubesphereio

A9: 检查config-sample.yaml的namespace_override是否为kubesphereio

5 参考链接

https://www.kubesphere.io/zh/docs/v3.4/installing-on-linux/introduction/air-gapped-installation/


http://www.kler.cn/a/466621.html

相关文章:

  • react axios 优化示例
  • 第J4周:ResNet与DenseNet结合探索
  • ABAP 两个内表不同名称字段赋值的方法
  • 对一个双向链表,从尾部遍历找到第一个值为x的点,将node p插入这个点之前,如果找不到,则插在末尾。使用C语言实现
  • Excel重新踩坑5:二级下拉列表制作;★数据透视表;
  • 网络安全之高防IP的实时监控精准防护
  • python28-IO编程、文件读写、os模块
  • [商业化] 【微软商店】如何申请ITIN、修改Manifest并处理Win32应用的FullTrust权限
  • 区块链安全常见的攻击分析——拒绝服务攻击 (Denial of Service-DOS)King合约【11】
  • ROS导航使用贝塞尔曲线对全局路径进行平滑处理
  • 一份完整的软件测试报告如何编写?
  • 拆解 Web3:探寻去中心化网络的核心密码
  • RK3588+麒麟国产系统+FPGA+AI在电力和轨道交通视觉与采集系统的应用
  • mysql连接时报错1130-Host ‘hostname‘ is not allowed to connect to this MySQL server
  • 积木(01)
  • @Transactional注解 细节!
  • 检索增强生成(RAG):大语言模型的创新应用
  • LeetCode 141:环形链表
  • C++面向对象编程:纯虚函数、抽象类、虚析构、纯虚析构
  • 【项目】多模态图文理解-GLM-Edge实战
  • Scala_【5】函数式编程
  • 以太网连接,本地连接,宽带连接,无线WLAN连接;交换机和路由器
  • 【MyBatis-Plus 条件构造器】全面解析 Wrapper
  • 【赵渝强老师】MongoDB文档级别的并发控制
  • vue 虚拟滚动 vue-virtual-scroller RecycleScroller
  • logback日志文件多环境配置路径