记录一次node节点异常的排查
场景:运维同事反馈,在部署服务的时候,云上的k8s的node节点突然异常了,而且是3个节点同时异常了。当时开发人员正在部署服务,并没有做其他的操作。而且之前3个node节点也没有异常现象,查看运维管理的事件中心,发现有异常的日志,初步怀疑是coredns 和网络插件cni出了问题。
解决方案:于是继续排查后端日志,发现可能是使用了镜像加速,但是没有安装插件的原因导致的,于是让运维同事重新进行了部署演示,发现确实是这个原因。于是,在后台重启了containerd服务,systemctl restart containerd ,重新部署服务的时候,选择镜像服务时,不选择镜像加速。发现问题可以正常部署了。(PS:天翼云)