网卡丢失导致集群异常
假期晚上有个电话,说集群故障,应用无法连接,节点一可以ssh登录,节点二已无法正常登录了,在节点一上需要ssh 私网ip地址才可以登录节点二,虽不是重点客户,有问题还是需要积极处理。
首先看集群状态
节点二的vip已经漂移到节点一上,通过私网连接到节点二,首先查看缺省网关,感觉网关出问题了,检查发现确实不存在了
接着查看网卡信息,ifconfig -a都查看不到网卡了,重启网络服务无法找到网卡 ens256
[root@hydb2 ~]# service network restart
正在关闭接口 ens224: [确定]
关闭环回接口: [确定]
弹出环回接口: [确定]
弹出界面 ens224: Determining if ip address 100.100.100.2 is already in use for device ens224...
[确定]
弹出界面 ens256: 设备 ens256 似乎不存在, 初始化操作将被延迟。
[失败]
关闭节点二上的实例和集群,reboot重启主机后发现 ens256又出现了,感觉是服务器的固件问题,查看messages日志
日志已转服务器硬件厂商了,感觉固件有问题,等待最终结果