当前位置: 首页 > article >正文

k8s出问题后 应该查看哪些内容

要确认 Kubernetes (k8s) 系统是否正常运行,需要检查集群的 核心组件节点状态Pod 运行情况网络通信。以下是详细步骤和命令:


1. 检查集群节点状态

kubectl get nodes
  • 期望输出:所有节点状态为 Ready
  • 异常情况
    • NotReady:节点可能未启动或组件故障。
    • 节点缺失:节点未加入集群或通信问题。

2. 检查核心组件 Pod 状态

Kubernetes 控制平面组件(如 kube-apiserveretcdkube-schedulerkube-controller-manager)通常以 Pod 形式运行在 kube-system 命名空间:

kubectl get pods -n kube-system
  • 期望输出:所有 Pod 状态为 RunningREADY1/1 或类似。
  • 常见异常
    • CrashLoopBackOff:组件崩溃循环,需检查日志。
    • Pending:资源不足或调度失败。
    • ImagePullBackOff:镜像拉取失败。

3. 查看核心组件日志

如果某个核心 Pod 异常,查看其日志:

kubectl logs <pod-name> -n kube-system

例如检查 kube-apiserver

kubectl logs kube-apiserver-master-node -n kube-system

4. 检查 Kubernetes 服务状态

  • 控制平面服务(Master 节点):
    # 检查 kube-apiserver 是否监听 6443 端口
    curl -k https://localhost:6443/healthz
    # 期望输出:ok
    
    # 检查 etcd 健康状态
    kubectl get --raw='/readyz?verbose'
    
  • 工作节点服务(每个 Node):
    # 检查 kubelet 状态
    systemctl status kubelet
    
    # 检查容器运行时(如 Docker 或 Containerd)
    systemctl status docker
    

5. 验证网络连通性

Kubernetes 网络是否正常:

# 创建一个临时 Pod 测试网络
kubectl run network-test --image=alpine --rm -it --restart=Never -- sh
# 进入 Pod 后测试 DNS 和跨节点通信
ping kubernetes.default.svc.cluster.local  # DNS 解析
ping <其他节点的IP>                          # 跨节点通信

6. 检查 Kubernetes 事件

查看集群中的警告或错误事件:

kubectl get events --sort-by='.metadata.creationTimestamp' -w
  • 关注 Warning 类型的事件,如调度失败、镜像拉取错误等。

7. 验证集群功能

  • 部署测试应用
    kubectl create deployment nginx-test --image=nginx
    kubectl expose deployment nginx-test --port=80 --type=NodePort
    kubectl get svc nginx-test  # 获取访问端口
    
  • 访问测试
    curl http://<节点IP>:<NodePort>
    
    若返回 Nginx 欢迎页,说明集群功能正常。

8. 使用集群诊断工具

  • kubeadm 检查(如果使用 kubeadm 部署):
    kubeadm alpha certs check-expiration  # 检查证书有效期
    kubeadm config check                  # 检查配置
    
  • 集群状态工具
    kubectl cluster-info         # 查看集群基本信息
    kubectl get componentstatus  # 检查核心组件状态(已弃用,建议直接检查 Pod)
    

常见问题排查

  1. 节点 NotReady
    • 检查 kubelet 是否运行:systemctl status kubelet
    • 查看节点详情:kubectl describe node <节点名称>
  2. Pod 无法调度
    • 检查资源配额:kubectl describe node | grep -A 10 Allocated
    • 查看调度失败原因:kubectl describe pod <pod-name>
  3. 服务无法访问
    • 检查防火墙规则是否放行 NodePort 或 LoadBalancer 端口。
    • 验证 Service 和 Endpoints 是否正常:
      kubectl get svc <service-name>
      kubectl get endpoints <service-name>
      

总结步骤

  1. 检查所有节点 Ready
  2. 确认 kube-system 命名空间下的核心 Pod 全部运行正常。
  3. 验证网络和 DNS 通信。
  4. 查看事件和日志定位具体错误。

通过以上步骤,可以快速诊断 Kubernetes 集群的健康状态。

解决方案:

最简单 粗暴的一种

systemctl restart docker kubelet     


http://www.kler.cn/a/566751.html

相关文章:

  • 【Leetcode 每日一题】2353. 设计食物评分系统
  • Netty为什么性能很高?
  • Android Logcat 高效调试指南
  • SVT-AV1接入ffmpeg说明
  • PostgreSQL中的外键与主键
  • Lucene硬核解析专题系列(二):索引构建的底层实现
  • 后端返回文件流,前端导出excel文件
  • 10. 作者去换监控源了,不知道什么原因,zabbix自定义监控无法获取
  • Android13修改多媒体默认音量
  • node-red读写Redis
  • 【Linux第一弹】Linux基础指令(上)
  • 校园订餐微信小程序(全套)
  • 说说JVM的底层原理(JAVA是如何运行的)?
  • Redisson 分布式锁底层原理实现详解
  • FC兵蜂2游戏技巧
  • 学习路程七 langchain核心组件 Prompt
  • AI绘画软件Stable Diffusion详解教程(2):Windows系统本地化部署操作方法(专业版)
  • MOM成功实施分享(七)电力电容制造MOM工艺分析与解决方案(第一部分)
  • 基于 Python 的天气数据分析与可视化
  • 《深度学习实战》第4集:Transformer 架构与自然语言处理(NLP)