大模型训练底座-多集群管理
目录
1 背景
2 多集群管理工具
2.1 Kubefed
2.2 Liqo
3 多集群管理平台
3.1 架构说明
3.2 组件列表
3.3 多集群管理
3.3.1 多集群部署
3.3.2 多集群离线部署
3.3.3 多集群验证
3.3.3.1 联邦资源介绍
3.3.3.2 联邦资源部署
3.3.3.3 联邦资源访问
3.4 添加/删除集群节点
4 FAQ
Considerations for large clusters A cluster is a set of nodes (physical or virtual machines) running Kubernetes agents, managed by the control plane. Kubernetes v1.31 supports clusters with up to 5,000 nodes. More specifically, Kubernetes is designed to accommodate configurations that meet all of the following criteria: No more than 110 pods per node No more than 5,000 nodes No more than 150,000 total pods No more than 300,000 total containers |
正是基于大规模集群的思考,kubernetes提出多集群管理方案kubefed,进一步在以下三个方面进行优化:
可用性:单集群无法应对网络故障或者数据中心故障导致的服务的不可用
隔离性:基于namsapce隔离无法做到真正的物理隔离
扩展性:突破单集群5000个节点上限
定义专属的API server:通过一套统一的中心化API来管理多集群以及机器资源。KubeFed就是采用的这种方法,通过扩展k8s API对象来管理应用在跨集群的分布。 |
基于Virtual Kubelet:Virtual Kubelet本质上是允许我们冒充Kubelet的行为来管理virtual node的机制。这个virtual node的背后可以是任何物件,只要virtual node能够做到上报node状态、和pod的生命周期管理。Liqo就是通过定制的virtual kubelet来实现多集群管理。 目前的社区的virtual kubelet 不具备任何生产能力,但是提供了一个library,可以给各家公有云厂商,用来构建自己的virtual kubelet 版本,所以适用场景为对接第三方公有云的计算。 |
后端组件 | 功能说明 |
ks-apiserver | 整个集群管理的 API 接口和集群内部各个模块之间通信的枢纽,以及集群安全控制。 |
ks-console | 提供 KubeSphere 的控制台服务。 |
ks-controller-manager | 实现业务逻辑的,例如创建企业空间时,为其创建对应的权限;或创建服务策略时,生成对应的 Istio 配置等。 |
metrics-server | Kubernetes 的监控组件,从每个节点的 Kubelet 采集指标信息。 |
Prometheus | 提供集群,节点,工作负载,API对象的监视指标和服务。 |
Elasticsearch | 提供集群的日志索引、查询、数据管理等服务,在安装时也可对接您已有的 ES 减少资源消耗。 |
Fluent Bit | 提供日志接收与转发,可将采集到的⽇志信息发送到 ElasticSearch、Kafka。 |
Jenkins | 提供 CI/CD 流水线服务。 |
Source-to-Image | 将源代码自动将编译并打包成 Docker 镜像,方便快速构建镜像。 |
Istio | 提供微服务治理与流量管控,如灰度发布、金丝雀发布、熔断、流量镜像等。 |
Jaeger | 收集 Sidecar 数据,提供分布式 Tracing 服务。 |
OpenPitrix | 提供应用程序生命周期管理,例如应用模板、应用部署与管理的服务等。 |
Alert | 提供集群、Workload、Pod、容器级别的自定义告警服务。 |
Notification | 是一项综合通知服务; 它当前支持邮件传递方法。 |
Redis | 将 ks-console 与 ks-account 的数据存储在内存中的存储系统。 |
OpenLDAP | 负责集中存储和管理用户帐户信息与对接外部的 LDAP。 |
Storage | 内置 CSI 插件对接云平台存储服务,可选安装开源的 NFS/Ceph/Gluster 的客户端。 |
Network | 可选安装 Calico/Flannel 等开源的网络插件,支持对接云平台 SDN。 |
Step 1 #如需使用 kk 离线部署镜像仓库,添加 --with-registry 打包镜像仓库的安装文件 ./kk create manifest --with-kubernetes v1.22.17 --with-registry Step 2 #执行以下命令构建包含 ks-core 及各扩展组件镜像的离线安装包 ./kk artifact export -m manifest-sample.yaml -o kubesphere.tar.gz 注: 临时目录/data/zwxu/kubesphere/kubekey/artifact Step 3 #安装镜像仓库 ./kk init registry -f config-sample.yaml -a kubesphere.tar.gz 注: 安装目录/opt/harbor,若部署有问题,重新install.sh Step 4 #创建 harbor 项目 ./create_project_harbor.sh Step 5 #执行以下命令安装 KubeSphere 集群 ./kk create cluster -f config-sample.yaml -a kubesphere.tar.gz Step 6 #执行以下命令查看集群状态 kubectl logs -n kubesphere-system $(kubectl get pod -n kubesphere-system -l 'app in (ks-install, ks-installer)' -o jsonpath='{.items[0].metadata.name}') -f |
附件config-sample.yaml中的harbor配置
... registry: type: harbor auths: "172.31.132.99": username: admin password: Harbor12345 plainHTTP: true privateRegistry: "172.31.132.99" namespaceOverride: "kubesphereio" registryMirrors: [] insecureRegistries: ["172.29.232.69"] addons: [] ... |
附件manifest-sample.yaml
以下 manifest 文件中的镜像列表仅为示例,建议通过 https://get-images.kubesphere.io/ 获取最新的镜像列表 apiVersion: kubekey.kubesphere.io/v1alpha2 kind: Manifest metadata: name: sample spec: arches: - amd64 - arm64 kubernetesDistributions: - type: kubernetes version: v1.22.17 components: helm: version: v3.14.3 cni: version: v1.2.0 etcd: version: v3.4.13 containerRuntimes: - type: docker version: 24.0.9 - type: containerd version: 1.7.13 calicoctl: version: v3.27.3 crictl: version: v1.29.0 docker-registry: version: "2" harbor: version: v2.10.1 docker-compose: version: v2.26.1 images: # kubesphere - registry.cn-beijing.aliyuncs.com/kubesphereio/ks-installer:v3.4.1 - registry.cn-beijing.aliyuncs.com/kubesphereio/ks-controller-manager:v3.4.1 - registry.cn-beijing.aliyuncs.com/kubesphereio/ks-console:v3.4.1 - registry.cn-beijing.aliyuncs.com/kubesphereio/ks-apiserver:v3.4.1 # kubernetes - registry.cn-beijing.aliyuncs.com/kubesphereio/pause:3.5 - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-apiserver:v1.22.17 - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-controller-manager:v1.22.17 - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-scheduler:v1.22.17 - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-proxy:v1.22.17 - registry.cn-beijing.aliyuncs.com/kubesphereio/coredns:1.9.3 - registry.cn-beijing.aliyuncs.com/kubesphereio/k8s-dns-node-cache:1.22.20 - registry.cn-beijing.aliyuncs.com/kubesphereio/node-exporter:v1.3.1 - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-rbac-proxy:v0.11.0 - registry.cn-beijing.aliyuncs.com/kubesphereio/metrics-server:v0.4.5 - registry.cn-beijing.aliyuncs.com/kubesphereio/prometheus:v2.39.1 - registry.cn-beijing.aliyuncs.com/kubesphereio/alertmanager:v0.23.0 - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-state-metrics:v2.6.0 - registry.cn-beijing.aliyuncs.com/kubesphereio/provisioner-localpv:3.3.0 # calico - registry.cn-beijing.aliyuncs.com/kubesphereio/cni:v3.27.3 - registry.cn-beijing.aliyuncs.com/kubesphereio/kube-controllers:v3.27.3 - registry.cn-beijing.aliyuncs.com/kubesphereio/node:v3.27.3 - registry.cn-beijing.aliyuncs.com/kubesphereio/pod2daemon-flexvol:v3.27.3 registry: auths: {} |
附件create_project_harbor.sh
#!/usr/bin/env bash url="https://dockerhub.kubekey.local" # 或修改为实际镜像仓库地址 user="admin" passwd="Harbor12345" harbor_projects=( kubesphereio ) for project in "${harbor_projects[@]}"; do echo "creating $project" curl -u "${user}:${passwd}" -X POST -H "Content-Type: application/json" "${url}/api/v2.0/projects" -d "{ \"project_name\": \"${project}\", \"public\": true}" -k # 注意在 curl 命令末尾加上 -k done |
-
-
- 主集群开启
-
前提已安装kubesphere集群
Step1 编辑配置 kubectl edit cc ks-installer -n kubesphere-system --- multicluster: clusterRole: host hostClusterName: aicc --- Step2 验证配置 kubectl logs -n kubesphere-system $(kubectl get pod -n kubesphere-system -l 'app in (ks-install, ks-installer)' -o jsonpath='{.items[0].metadata.name}') -f |
查看主集群
kubectl -n kubesphere-system get cm kubesphere-config -o yaml | grep -v "apiVersion" | grep jwtSecret |
-
-
- 成员集群开启
-
前提已安装kubesphere集群
Step1 编辑配置 kubectl edit cc ks-installer -n kubesphere-system --- authentication: jwtSecret: "********" multicluster: clusterRole: member --- Step2 验证配置 kubectl logs -n kubesphere-system $(kubectl get pod -n kubesphere-system -l 'app in (ks-install, ks-installer)' -o jsonpath='{.items[0].metadata.name}') -f |
-
-
- 导入成员集群
-
-
-
- 集群列表查看
-
主集群执行kubectl get cluster
被联邦管理的k8s API资源统称为Federated Resources(通过kubectl get FederatedTypeConfig --all-namespaces查看当前联邦资源),如果要新增新的 federate type api,执行 kubefedctl enable
Federated Resources的spec分成3个基础配置:
template:原资源类型的spec
placement:定义期望部署的集群
overrides:定义集群特定配置,基于原资源类型的spec进行修改,比如副本数的变化
示例如下
多集群应用自动分发部署
apiVersion: types.kubefed.io/v1beta1 kind: FederatedDeployment metadata: name: test-nginx namespace: test-namespace spec: template: metadata: labels: app: nginx spec: replicas: 1 selector: matchLabels: app: nginx template: metadata: labels: app: nginx spec: containers: - image: nginx:1.20 name: nginx placement: clusters: - name: hefei |
https://github.com/kubesphere/kubesphere/blob/v3.4.1/api/openapi-spec/swagger.json
通过接口文档的集群列表接口(即/apis/cluster.kubesphere.io/v1alpha1/clusters),获取集群的配置文件kubeconfig,从而进行多集群资源访问
接口查询示例如下
原有节点信息不变,在hosts、roleGroups进行增量新增节点信息
apiVersion: kubekey.kubesphere.io/v1alpha2 kind: Cluster metadata: name: sample spec: hosts: - {name: node-172-31-132-99, address: 172.31.132.99, internalAddress: 172.31.132.99, user: root, password: "xylx1.T2020!", arch: arm64} - {name: node-172-31-132-49, address: 172.31.132.49, internalAddress: 172.31.132.49, user: root, password: "xylx1.T2020!", arch: arm64} roleGroups: etcd: - node-172-31-132-99 control-plane: - node-172-31-132-99 worker: - node-172-31-132-99 - node-172-31-132-49 |
添加节点
./kk add nodes -f config-sample.yaml -a kubesphere.tar.gz
注:--with-packages为安装操作操作依赖
单集群节点添加成功截图
删除节点
#驱逐节点上的容器
kubectl drain node3
./kk delete node node3 -f config-sample.yaml
结果: 17:02:50 CST Pipeline[DeleteNodePipeline] execute successfully
Q1:10:58:40 CST [ERRO] node-172-31-132-99: socat is required
A1:yum install -y socat
Q2:No SHA256 found for kubeadm. v1.22.17 is not supported./error: Unsupported KubeSphere version: v3.4.1
A2:./kk version --show-supported-k8s 升级kubekey版本
wget "https://kubernetes.pek3b.qingstor.com/kubekey/releases/download/v3.1.2/kubekey-v3.1.2-linux-arm64.tar.gz"
Q3:主集群未就绪
A3:Tower 和 kubefed-controller-manager不健康
注: 多集群功能启用后,主集群上会安装 Tower 和 controller-manager。如果您使用代理连接,成员集群仅需要 Tower。如果您使用直接连接,成员集群无需额外组件
Q4:成员集群未就绪
A4:主集群上ks-controller-manager不健康
Q5: The number of registry must be greater then 0.
A5: 增加registry节点,
即registry:
- ifly-172-29-232-69
Q6:unauthorized: authentication required
A6:新建项目kubesphereio
Q7: push image multi-arch manifest failed
A7: kubekey3.1.2升级为3.1.7
Q8: 提示文件语法错误
A8: 检查config-sample.yaml对应配置是否存在
Q9:有些pod镜像项目不是kubesphereio
A9: 检查config-sample.yaml的namespace_override是否为kubesphereio
5 参考链接
https://www.kubesphere.io/zh/docs/v3.4/installing-on-linux/introduction/air-gapped-installation/