当前位置: 首页 > article >正文

大数据-之LibrA数据库系统告警处理(ALM-37006 Coordinator进程异常)

告警解释

当出现如下情况时,产生该告警:

  • CN所在机器发生硬件故障(断电、硬盘损坏等)。
  • CN实例数据目录中的postgresql.conf配置文件不存在或者其中某个配置参数不正确。
  • CN实例线程无法监听IP,或者无法绑定监听端口。
  • CN实例进程没有其数据目录读写权限、或数据目录丢失。
  • 绑定CN实例的虚拟IP异常。
告警属性

告警ID

告警级别

可自动清除

37006

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称

RoleName

产生告警的角色名称

HostName

产生告警的主机名

Instance

产生告警的实例

对系统的影响

当CN实例启动失败时,集群将提示启动失败,数据库系统将无法使用DDL语句,DML可以正常使用。

一段时间后(约5分钟),系统会自动将故障CN剔除,此时用gs_om -t status --detail命令查询到故障CN节点状态为Deleted。此时可以正常使用DDL语句,和DML语句。

注意:

此时不要直接重启MPPDB服务。请按照“处理步骤”中描述操作。

可能原因
  • CN所在机器发生硬件故障(断电、硬盘损坏等)。
  • CN实例数据目录中的postgresql.conf配置文件不存在或者其中某个配置参数不对。
  • CN实例线程无法监听IP,或者无法绑定监听端口。
  • CN实例进程没有其数据目录读写权限、或数据目录丢失。
  • 绑定CN实例的虚拟IP异常。
处理步骤
  1. 告警产生后等待5分钟,查看告警是否仍然存在。
    • 是,执行2。
    • 否,处理完毕。
  1. omm用户身份登录LibrA服务器,执行source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile命令启动环境变量。执行以下命令查询并确认故障节点CN状态是否为Deleted。

    gs_om -t status --detail

    • 是,执行3。
    • 否,执行9。
  2. 登录FusionInsight Manager,选择“服务管理 > MPPDB”。单击“实例”,在实例列表中选择故障节点对应的MPPDBServer。
  3. 单击“实例配置”,“参数类别”类型设置为“全部配置”,在搜索框中输入参数名称“mppdb.coo.number”进行搜索。
  4. 将“mppdb.coo.number”的值设置为0,单击“保存配置”。
  5. 在弹出窗口中,单击“确定”。界面提示“操作成功”,单击“完成”,查看操作是否成功执行。
    • 是,故障CN删除完毕,手动在界面清除CN进程异常告警。
    • 否,执行9。
  1. (可选)恢复故障节点的CN,重复步骤3~4,将“mppdb.coo.number”的值设置为1,单击“保存配置”。
  2. (可选)在弹出窗口中,单击“确定”。界面提示“操作成功”,单击“完成”,查看操作是否成功执行。
    • 是,CN增加完毕。
    • 否,执行9。
  1. 在FusionInsight Manager界面,单击“系统设置 > 日志下载”。
  2. 在“服务”下拉框中勾选“MPPDB”,单击“确定”。
  3. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。

http://www.kler.cn/news/148261.html

相关文章:

  • python tkinter 使用(八)
  • C++之STL库:string类(用法列举和总结)
  • springboot项目修改项目名称
  • JVM的知识点
  • python:由深浅拷贝谈到变量值的核心区别
  • 【SpringCloud】设计原则之单一职责与服务拆分
  • 如何在Ubuntu系统上安装Node.js
  • HTTP 响应头信息
  • 简易键值对文本解析
  • 面试:Kafka相关问题
  • 力扣104. 二叉树的最大深度
  • 大数据存储技术期中考点梳理
  • 更改QTableWidget的branch展开符样式为“+“加号字符
  • Typora+PicGo+Minio搭建博客图床
  • 每日OJ题_算法_双指针⑧力扣18. 四数之和
  • 还在担心发抖音没素材跟文案?[腾讯云HAI] AIGC带你蹭热度“今年你失去了什么?”
  • Eigen学习(持续更新)
  • freerots启动过程分析(qemu仿真RISC-V架构为例)
  • 【计算机网络学习之路】序列化,反序列化和初识协议
  • ChromeDriver最新版本下载与安装方法
  • 【面试HOT200】滑动窗口篇
  • HNU练习七 字符串编程题7. 机器人游戏
  • DS图—图的最短路径/Dijkstra算法【数据结构】
  • 【数据结构/C++】线性表_顺序表的基本操作
  • Windows11通用快捷键集合
  • 嵌入式开发DDR的选择
  • python-面试重点问题
  • 【深度学习】CNN中pooling层的作用
  • 使用new Vue()的时候发生了什么?
  • Ajax技