当前位置：首页 > article >正文

记一次产线打印json导致的redis连接超时

article 2024/11/15 3:02:06

服务在中午十一点上线后，服务每分钟发出三到四次redis连接超时告警。错误信息为：

Dial err:dial tcp: lookup xxxxx: i/o timeout

排查过程

先是检查redis机器的情况，redis写入并发数较大，缓存中保留了一小时大概400w条数据。redis服务器cpu和内存跟出问题前都差不多，非常接近，看不出什么问题。接下来看看服务的情况。

> LLEN xxxServ:price:change
(integer) 4100314
> ZCARD xxxServ:price:change:zSet
(integer) 963090

业务简单图

业务简单图

服务关键监控指标

cpu 从 12%飙升到150%
内存平稳，在 150M 上下
goroutines翻倍，从300到600
gc时间暴涨，从110us涨到7.5ms
redis 连接数达到了配置的上限20
文件描述符翻倍了，从100到250

消息监控

消息消费的qps
消息平均耗时

核心接口监控

核心接口qps减半，从200减少到100
接口耗时涨到6倍，从250ms涨到1.5s

火焰图

火焰图

定位原因

异常的指标有cpu使用率飙升，goroutines翻倍，gc时间暴涨，文件描述符翻倍，核心接口qps减半且耗时暴涨。再看看火焰图，LogToJson函数占用了83%的cpu。

出问题前上线了打印debug日志的代码，产线debug日志默认不会输出，但是debug日志入参是LogToJson的输出，输出的数据为全局的缓存数据，缓存数据比较大，且每次请求都打印一次。

并发数较高，大量打印json导致cpu过高，每次请求后这些大对象要被回收，从而导致gc时间过长，进而导致时不时出现redis io timeout 的错误。取消打印json的debug日志，问题就解决了。

经验教训

大对象不要在并发高场合打印。看到的问题可能只是现象，未必是根本原因，就像这次看起来是redis问题，但实际是打印json的问题。Code Review未必能细致到每个方法，有地方一不小心就踩坑了。

http://www.kler.cn/a/17792.html

相关文章：

建筑施工特种作业人员安全生产知识试题

java八股-jvm入门-程序计数器，堆，元空间，虚拟机栈，本地方法栈，类加载器，双亲委派，类加载执行过程

vue2+ element ui 集成pdfjs-dist

Sigrity SPEED2000 Power Ground Noise Simulation模式如何查看PDS系统的自阻抗操作指导

前端神经网络入门（三）：深度学习与机器学习的关系、区别及核心理论支撑 - 以Brain.js示例

【算法】Check If Word Is Valid After Substitutions 检查替换后的词是否有效

MySQL高频面试题

多通道振弦传感器无线采集仪通过短信和FTP文件修改参数

设计原则之【接口隔离原则】

22.Java多线程

SpreadJS 16.1 EN + SpreadJS 16.1 CN Crack

【Linux】linux进程间通信netlink socket(用户与内核通信)

PBDB Data Service：Special parameters（特殊参数）

公司新来的00后真是卷王，工作没2年，跳槽到我们公司起薪18K都快接近我了

JAVA原生语言开发多学校Saas模式校园管理系统

LT8471IFE#PBF-ASEMI代理亚德诺LT8471IFE#PBF原厂芯片

文件操作和IO

机器视觉工程师，听我一句劝，别去外包，干了三年，废了....对女人没了兴趣

【Unity编辑器】拓展Project视图

复兴号列车司机室

Midjourney之logo设计（建议收藏）

杂乱之Android的字体相关类Typeface

一道2023年数学分析真题

【Linux】Linux安装Nexus（图文解说详细版）

基于numpy的鸢尾花数据获取、处理等操作。