【疑海破局】一个注解引发的线上事故
【疑海破局】一个注解引发的线上事故
1、问题背景
在不久前一个阳光明媚的上午,我的思绪正在代码中游走、双手正在键盘上飞舞。突然,公司内部通讯工具上,我被拉进了一个临时工作群,只见群中产品、运营、运维、测试等关键人员全部严阵以待,我就知道大的可能要来了。果不其然,产品运营反馈今天系统突然出现异常,在进行某个功能操作时系统无响应,影响到线上业务,需要立即进行排查和修复。
2、问题排查
在进行问题排查时,首先需要查看接口调用日志:发现该功能接口的调用返回失败,那么问题就来源于系统接口服务端。除此之外,系统昨天还是正常没有问题的,结合公司最近在进行大规模的网关迁移,加上昨天下午我们还上线了一个新版本,所以猜测该问题可能跟网关服务未能正确解析、或新版本接口代码有问题这两方面有关,于是我们就确定了排查方向。
2.1 网关服务排查
对于网关服务的排查,我们首先测试了线上系统其他接口的功能,发现都是正常使用的,只有这一个接口存在问题&#