当前位置: 首页 > article >正文

记一次rac故障原因分析(虚拟化平台)

一 现象描述

XX客户于1月14号凌晨业务中断,检查数据库发现数据库集群宕机。
XX客户于2月14号春节初五早上业务异常,连接数据库无响应。

二 问题详细诊断

1月14号故障

1月14号凌晨2点,客户反馈业务中断,发现节点1无法连接,客户联系云工程师紧急处理,凌晨4点半节点1可以连接。
节点2连接正常,检查发现节点2集群服务异常。

检查节点2数据库日志发现:
在1点43分节点2等待事件log file parallel write超时80秒,LGWR挂起超过70秒,Lgwr为数据库核心进程,出现异常时会导致数据库不可用。
图片 111.png
检查节点2 I/O使用情况:
图片 22221.png
可以看到在1点42分开始 读写I/O很低的情况下%util跑满,说明I/O已经100%跑满,已经来不及处理。

再查看节点2集群日志
图片 12222.png
发现在1点50分节点2和节点1的私网通信异常,导致节点2被驱逐。

节点1数据库日志
图片 32321.png
节点1在1点45分出现ORA错误 检查trc日志文件
图片 333331.png
发现等待事件为gc等待
由于所有的跨节点访问都会先由lgwr进程写入日志,此时lgwr写入挂起导致无法响应gc请求,紧接着节点1 kill该会话,检测到节点2实例终止然后发起Reconfiguration。

4点13分在主机工程师修复节点1后,启动集群业务恢复正常。
检查节点1操作系统日志,数据库日志,集群日志未发现其他异常。
检查节点1主机重启记录,发现节点1在1点51分已经重启,重启失败操作系统进入救援模式
reboot system boot 3.10.0-1160.el7. Sun Jan 14 01:51 - 03:51 (02:00

2月14号故障

查看节点2数据库日志
图片 444441.png
在2月14号10点38分 数据库出现lgwr异常,log file parallel write 写入异常。紧接着节点2实例终止。
分析DBA_HIST_ACTIVE_SESS_HISTORY 可以看到在实例重启前会话最终都被gc事件阻塞
图片 222221.png

三 故障原因

在1月14号的故障中,1点42分节点2 lgwr异常导致节点2在1点43分宕机,节点2在1点50分主机异常重启,重启失败进入救援模式导致整个集群不可用。
在2月14号的故障中,10点37分15秒开始由于节点2 数据库核心进程lgwr异常,导致节点1的gc请求全部挂起,最终导致节点2宕机,在11点05分恢复正常。
在2次故障中,均由于lgwr进程异常挂起等待log file parallel write引起节点宕机,造成该等待事件的原因为磁盘等待IO写入,I/O响应出现了异常。

四 建议

1、将数据库由虚拟机平台迁到更加稳定物理机上。
2、排查虚拟化平台I/O等待的原因并解决。
hhh6.jpg


http://www.kler.cn/a/453642.html

相关文章:

  • LSTM实现天气模型训练与预测
  • 转运机器人推动制造业智能化转型升级
  • 决策树python实现代码1
  • python中os.path.isdir()问题
  • Ollama+OpenWebUI+llama3本地部署
  • Linux:code:network:devinet_sysctl_forward;IN_DEV_FORWARD
  • 【搭建一个网上商城系统】
  • 大模型应用技术系列(三): 深入理解大模型应用中的Cache:GPTCache
  • [python SQLAlchemy数据库操作入门]-06.如何高效查询特定股票的历史行情
  • 基于STM32单片机矿井矿工作业安全监测设计
  • WiFi、蓝牙共存,物联网无线通信技术,设备无线连接数据传输应用
  • 关于在M系列的Mac中使用SoftEtherClient软件
  • 如何卸载和升级 Angular-CLI ?
  • 梳理你的思路(从OOP到架构设计)_设计模式Android + Composite模式
  • FPGA的DMA应用——pcileech
  • 路由器转发数据报的封装过程
  • 【合作原创】使用Termux搭建可以使用的生产力环境(八)
  • docker-compose的安装,使用教程及使用yaml搭建个人博客
  • 大模型(LLM)提示工程(Prompt Engineering)初识
  • Mac电脑移动端抓包
  • 图解设计模式
  • 【Rust自学】5.3. struct的方法(Method)
  • Type-C单口便携显示器LDR6021
  • 金属衬底介质片对平面波的反射-问题的解析求解和FEM求解
  • 自然语言处理基础
  • Git的.gitignore文件详解与常见用法