当前位置：首页 > article >正文

项目报 OutOfMemoryError 、GC overhead limit exceeded 问题排查以及解决思路实战

article 2025/3/1 9:42:01

项目报 OutOfMemoryError、GC overhead limit exceeded 问题排查以及解决思路实战

前言：
问题现象描述：
1，生产环境有个定时任务，没有初始化告警数据【告警数据量为1000多个】
2，其他定时任务执行正常
3，查询日志到定时任务执行之前有日志打印
4，手动触发补偿告警定时任务接口报OutOfMemoryError GC overhead limit exceeded，也会报

1、现象问题排查

1.1 程序是否触发判断

1，首先定时任务之前可以正常初始化告警指标数据，说明程序可以正常执行，不会存在问题【初次判断】

1.2 JVM内存大小查看

2，会不会是内存不够用导致的结果，使用arthas工具查看内存使用情况
输入memory 返回如下信息
在这里插入图片描述

1，其中堆空间eden_space 区内存：总共462M，已使用310M
2，还剩下大概 150M左右【大概够用，只是猜想】

1.3 手动触发定时任务查看内存使用情况

1，现象是eden_space 很快达到99%，并且报GC overhead limit exceeded
在这里插入图片描述

1.4 查看定时任务代码逻辑，发现创建大量对象大概1000多个对象【在一瞬间】，代码大概如下。

1，为啥是1000多个对象，是因为有1000多个告警，要在凌晨触发定时任务生成告警指标数据
2，告警的数据，是kafka接收的，kafka监听到数据实时拉取数据，批量保存到数据库
3，告警有4大类，每个类有12个类别

未优化前逻辑

private final int batchSize = 500;
public void initKafkaAlarmInventoryTask() {
        // 待批量保存清单数据
        List<TaskAlarmInventoryEntity> batchInsertTaskInventoryList = new ArrayList<>();
        // 1.获取需要初始化的告警数据 
        // TODO: 从数据库查询 
        List<InitAlarmTaskInventoryEntity> initTaskInventoryEntities = .....
       //  initInspectionSystemMap key:为告警的类型【12大类型】 v:每个类型下面的指标集合
       initInspectionSystemMap.forEach((k, v) -> {
       		// 对每个指标进行遍历
            v.forEach(x -> {
                	// 相关业务逻辑 如果当前的告警数据已经消费到，就跳过，否则就保存消息
                	batchInsertTaskInventoryList.add(....);
                }
            });

        });
        if (CollectionUtils.isNotEmpty(batchInsertTaskInventoryList)) {
            for (int i = 0; i < batchInsertTaskInventoryList.size(); i += batchSize) {
                int endIndex = Math.min(i + batchSize, batchInsertTaskInventoryList.size());
                // TODO：保存到数据库
            }
        }
    }
    }

优化后：

private final int batchSize = 500;
public void initKafkaAlarmInventoryTask() {
        // 待批量保存清单数据
        List<TaskAlarmInventoryEntity> batchInsertTaskInventoryList = new ArrayList<>();
        // 1.获取需要初始化的告警数据 
        // TODO: 从数据库查询 
        List<InitAlarmTaskInventoryEntity> initTaskInventoryEntities = .....
       //  initInspectionSystemMap key:为告警的类型【12大类型】 v:每个类型下面的指标集合
       initInspectionSystemMap.forEach((k, v) -> {
       		// 对每个指标进行遍历
            v.forEach(x -> {
                	// 相关业务逻辑 如果当前的告警数据已经消费到，就跳过，否则就保存消息
                	batchInsertTaskInventoryList.add(....);
                }
            });
        if (CollectionUtils.isNotEmpty(batchInsertTaskInventoryList)) {
            for (int i = 0; i < batchInsertTaskInventoryList.size(); i += batchSize) {
                int endIndex = Math.min(i + batchSize, batchInsertTaskInventoryList.size());
                // TODO：保存到数据库
            }
        }
    }
        });
    }

4，可能是一次性初始化1000多个对象把堆内存使用完导致的这个问题，优化成根据告警指标类型分类分成几百个类初始化，打包重新调用后，还是同样问题报错【本地执行没有问题】

1.5 使用arthas 跟踪接口执行情况

使用trace命令查看每个方法的调用时间，以及调用情况

[arthas@13362]$ trace com.xxx.xx.xx.kafka.KafkaAlarmReportConsumerClient initKafkaAlarmInventoryTask

命令大概意思是：
arthas 允许你监控指定类的方法执行过程，记录每个方法执行的时间、调用链等详细信息。
com.xxx.xx.xx.kafka.KafkaAlarmReportConsumerClient：这是目标类的完全限定名，表示 KafkaAlarmReportConsumerClient类。
initKafkaAlarmInventoryTask：这是你要追踪的方法名。Arthas 将监控该方法的执行，并返回详细的执行信息。

返回如下消息：

`---[18808.94593ms] com.xx.xxx.platform.kafka.KafkaAlarmReportConsumerClient $$EnhancerBySpringCGLIB$\$4ead41fc:initKafkaAlarmInventoryTask() [throws Exception]
    +---[100.00% 18808.534277ms ] org.springframework.cglib.proxy.MethodInterceptor:intercept() [throws Exception]
    |   `---[99.93% 18794.767357ms ] com.xx.xxx.xx.kafka.KafkaReportConsumerClient:initKafkaAlarmTask() [throws Exception]
    |       +---[0.00% 0.032337ms ] com.xx.xx.platform.entity.dao.TaskInventoryDao:builder() #826
    |       +---[0.00% 0.220948ms ] com.xxx.major.common.utils.DateUtils:getStartDate() #826
    |       +---[0.00% 0.014243ms ] com.xx.xx.platform.xxx.xx.TaskInventoryDao$TaskInventoryDaoBuilder:synStartDate() #826
    |       +---[0.00% 0.224577ms ] com.xxx.xxx.common.utils.DateUtils:getEndDate() #826
    |       +---[0.00% 0.010579ms ] com.xxx.major.xxx.entity.xxx.TaskInventoryDao$TaskInventoryDaoBuilder:synEndDate() #826
    |       +---[0.00% 0.009368ms ] com.xx.major.xxx.entity.xxx.TaskInventoryDao$TaskInventoryDaoBuilder:build() #826
    |       +---[0.21% 38.643543ms ] com.xxx.major.xxx.service.TaskInventoryService:queryTaskInventoryByTaskInventoryDao() #825
    |       +---[0.60% 112.059449ms ] com.xxx.major.platform.service.InitTaskInventoryService:queryAllInitTaskInventory() #836
    |       +---[0.00% 0.286756ms ] com.xxx.major.common.utils.DateUtils:getEndDate() #842
    |       +---[0.17% 32.261925ms ] com.xxxx.major.platform.service.TaskInventoryService:queryTaskInventoryByParam() #842
    `---throw:java.lang.OutOfMemoryError #-1 [GC overhead limit exceeded]

返回的大概意思是：

2.3.1. 方法调用路径:
com.xxx.major.platform.kafka.KafkaAlarmReportConsumerClient $KaTeX parse error: Can't use function '$' in math mode at position 22: …erBySpringCGLIB$̲\$4ead41fc:init…$ EnhancerBySpringCGLIB$$4ead41fc）是由 Spring 的 CGLIB 动态代理生成的类，initKafkaAlarmTask 是该方法。它的执行时间是 18808.94593ms（约 18.8 秒）。

org.springframework.cglib.proxy.MethodInterceptor:intercept() [throws Exception]：
这表示 Spring AOP 拦截器的执行，它拦截了对 initKafkaAlarmTask 的调用，并花费了 18808.534277ms。

com.xxx.major.platform.kafka.KafkaReportConsumerClient:initKafkaAlarmTask() [throws Exception]：
这表示实际的业务逻辑方法 initKafkaAlarmTask 被执行，并且占用了 18794.767357ms，几乎占用了整个时间。

2.3.2. 方法调用过程中的内部调用:
接下来是对 initKafkaAlarmTask 方法内部的其他方法的详细追踪：

TaskAlarmInventoryDao.builder()：用时 0.032337ms。
DateUtils.getStartDate()：用时 0.220948ms。
TaskAlarmInventoryDao $T a s k A l a r m I n v e n t oryD a o . sy n St a r t D a t e () ：用时 0.014243 m s 。 D a t e U t i l s . g e tE n d D a t e () ：用时 0.224577 m s 。 T a s k A l a r m I n v e n t oryD a o$ TaskAlarmInventoryDao.synEndDate()：用时 0.010579ms。
TaskAlarmInventoryDao$TaskAlarmInventoryDao.build()：用时 0.009368ms。
TaskAlarmInventoryService.queryTaskIAlarmnventoryByTaskInventoryDao()：用时 38.643543ms。
InitTaskAlarmInventoryService.queryAllAlarmInitTaskInventory()：用时 112.059449ms。
TaskAlarmInventoryService.queryTaskAlarmInventoryByParam()：用时 32.261925ms。

简短说，异常信息是：
最后，输出中显示了一个 java.lang.OutOfMemoryError 异常，指示发生了 GC overhead limit exceeded 错误。这表示在执行过程中，JVM 因垃圾回收器（GC）花费了过多的时间，但并未有效释放内存，导致内存溢出异常。

throw:java.lang.OutOfMemoryError #-1 [GC overhead limit exceeded] 表明 JVM 由于 GC 限制，无法回收足够的内存，最终触发了 OutOfMemoryError。

1.6 查看JVM参数配置：

arthas 输入 jvm，返回如下内容生成环境是1g，测试环境是512M这里只是做个已有JVM参数样例
在这里插入图片描述
1，问题一：
永久代和 Metaspace 配置：

由于 Java 8 及以后版本中已经没有永久代（PermGen），而是使用 Metaspace，因此 -XX:PermSize 和 -XX:MaxPermSize 参数已经不再生效。
建议：移除这些不再有效的参数，使用 Metaspace 相关的参数，如 -XX:MetaspaceSize 和 -XX:MaxMetaspaceSize，例如

-XX:MetaspaceSize=128M
-XX:MaxMetaspaceSize=512M

2，问题二：
当发生 OutOfMemoryError（OOM）错误时，JVM（Java虚拟机）会生成一个堆转储文件（heap dump）。这个文件包含了JVM内存堆的快照，包含了Java对象的详细信息，帮助开发者和运维人员分析和定位内存泄漏或内存不足的原因。分析堆转储文件是解决这类问题的一个重要步骤。

堆转储文件的生成
当出现 OutOfMemoryError 时，JVM会通过以下方式生成堆转储文件：

使用 -XX:+HeapDumpOnOutOfMemoryError 参数自动在OOM发生时生成堆转储。
堆转储文件通常会保存到指定的文件路径，如：-XX:HeapDumpPath=/path/to/dump.hprof。

查看当前文件夹存在xxx.hprof快照信息

在这里插入图片描述

1.7 将堆转储文件copy出来，用jdk自带的 java VisualVm分析

1，双击执行

在这里插入图片描述

2，文件装入快照信息

在这里插入图片描述

3，文件类型选择并装入

在这里插入图片描述

4，注意文件类型，是否选错

5，点击异常线程选择，找到问题所在

在这里插入图片描述

6，问题定位

找到问题的代码位置
在这里插入图片描述

7，根据问题找到的代码位置

在这里插入图片描述

8，计算类所占内存的大小

这里可以看到最大的有char[]实例大小和总大小，总实例的个数是740890，总大小是306,889,752单位是B，换成MB为，306,889,752➗1024➗1024≈292.67287445068359375≈293MB，这个跟启动JVM参数设置最大堆内存设置-Xmx512M 和这个相差不大**（-Xmx=512m虽然堆分配是512m,但是JVM会拓展）** 在这里插入图片描述

如果没有显示引用下面的数据，记得把这个点开

2、问题跟踪解决

问题一：
1，定时任务触发，会很一次性触发1000多个对象，
解决方案：
拆分成根据告警指标类型进行分开，仍然是批处理，一次性创建的对象最大为500个左右
问题二：
根据上面排查原因点7，发现是kafka消费者拉取数据量为500而且是多线程导致，造成数据量庞大，内存OOM，
解决方案：
1、把多线程去掉，或者最大线程数改为单个，每次拉取500个数据，
2、查看当前服务器内存使用情况
free -h
返回如下，mem的free还剩1.2G，加到当前服务JVM参数即可
在这里插入图片描述
并调整-Xms堆的大小改为512m+1024m

3、遇到的问题

1，arthas 服务器拉取不到，需要外网下载好arthas，copy到服务器
电脑盘创建文件夹执行如下命令即可
参考官网网址：https://arthas.aliyun.com/doc/install-detail.html

-- 下载arthas
curl -O https://arthas.aliyun.com/arthas-boot.jar
-- 执行脚本
java -jar arthas-boot.jar

2，服务器hprof快照信息，导出win环境，可能权限不对，要将hprof快照信息设置成所有人都可执行的权限

-- 修改为所有用户都可以执行
chmod a+rwx java_pid25304.hprof

在这里插入图片描述

3，JVM已有参数配置失效，JVM调优参数下一期讲解待完成…

本次OOM，GC问题做个记录分享给大家，生产项目难免有些没有表达合理CV清楚，欢迎指出来，我这边改好更新后再发上去
喜欢我的文章记得点个在看，或者点赞，持续更新中ing…

查看全文

http://www.kler.cn/a/454876.html

LeetCode 热题 100_二叉树的中序遍历（36_94_简单_C++）（二叉树；递归（中序遍历）；迭代）

如何在 Ubuntu 22.04 上安装 Ansible 教程

OpenStack系列第三篇：CentOS7 上部署 OpenStack（Train版）集群教程 Ⅲ Nova Neutron 服务部署

Go语言反射从入门到进阶

js 生成二维码（qrcodejs2-fix）

Intel AMD Hygon CPU缓存

分阶段总结：建材制造业“数字化转型”总体架构与实现路径

06 - Django 视图view

拉链表，流⽔表以及快照表的含义和特点

vscode remote-ssh 免密登录不生效的问题

vue2 通过url ‘URLScheme‘实现直接呼起小程序

社区版Dify+Ollama+llama3.2-vision 实现多模态聊天

设计模式-创建型-工厂方法模式

上位机开发的字符串处理

【206】图书管理系统

实现类似gpt 打字效果

提示词工程教程（七）：小样本和上下文学习

Stability AI 新一代AI绘画模型：StableCascade 本地部署教程

Zookeeper下面的conf目录下面的zoo.cfg

JavaScript（一）：变量与常量