当前位置: 首页 > article >正文

闲聊k8s的优雅关闭连接

序言

   当数据在进行交互的时候,如果连接发生了改变,就必然会涉及到是否是无损关闭连接,主要就是看结束连接的时候是否是四次挥手关闭,短连接其实还好,最关键的是长连接如何关闭。

    在k8s中,如果运行的是nginx ingress,就涉及到一个是reload会改变连接,一个是后面的svc发生变化的时候的连接;如果是普通的deployment,就涉及到rollingupdate滚动更新的时候,连接如何进行关闭的问题。

优雅的关闭连接

    1 长连接与短连接 

   所谓的长连接,就是和客户端的tcp连接一直在一个会话上面,当你使用netstat查看的时候,连接的端口一直是同样的一个保持不变;而短连接则是使用netstat查看的时候,连接的端口总是同一个。

netstat -antp(在命令中的62257一直保持不变,一直在estabished状态)Active Internet connections (servers and established)Proto Recv-Q Send-Q Local Address  Foreign Address  State   PID/Program nametcp  0   0 10.10.1.132:6379  10.0.20.3:62257   ESTABLISHED 9717/redis

   站在nginx的角度来看,长连接要分为客户端和nginx之间的连接(还有nginx与upsteam的连接),这个是nginx参数keepalive_timeout来设置的,当客户端空闲多久的时候,就会将这个连接断开,也就是说,如果客户端一直在发送数据,那么这个连接可以到天长地久,只要世界不崩溃,这个连接就一直在。

Syntax:    keepalive_timeout timeout [header_timeout];Default:    keepalive_timeout 75s;Context:    http, server, location

   当然也可以配置为不是无限发送,所以偶尔会有一个长连接上发送的请求数量来进行限制,就类似于数据库的连接池,从而在到了一定的时候,这个连接肯定会进行关闭。

Syntax:    keepalive_requests number;Default:    keepalive_requests 1000;Context:    http, server, location

  要想流量进行无缝的衔接,从而应该有机会让长连接得到释放,不然的话,如果长连接无法释放,那么理论上还是偶尔有损失的。特别是对于websocket连接,grpc的连接,这种都是一个连接到死的那种,不过现在基本上客户端都兼容了,也就是连接断开了,也会自动进行重连。

    2 pod的关闭流程

    在k8s中,要支持优雅无损的进行关闭连接,首要的条件就是pod是支持对应的信号,看一下pod的关闭流程会发送哪些信号。

e4751d2ef01f1099d3e127d864fc78af.png

   pod的状态变化,可以是使用命令kubectl进行手动删除pod,也可以是deployment在进行更新pod镜像的时候,pod的状态会先变成terminating,然后开始执行pod的prestop逻辑,执行一些必要的清理工作,然后当prestop执行完成之后,kubelet就会发送sigterm信号进行关闭pod,然后等待terminationgracetime,默认是30秒,到了时间之后,就会发送sigkill信号强制杀死pod,也就完成了一个pod的生命周期。

    在这里,要注意的pod里面,是能够捕获到sigterm信号的,否则永远也无法进行优雅的关闭,除非你运气足够好,验证的方法是进入到你的pod,然后直接执行:

默认发送的是sigterm信号kill 1

   如果你执行完成之后,退出了这个pod,也就说明你的pod能捕获到sigterm信号,能正确的处理,如果pod未退出,还是老样子,说明pod的主进程无法捕获sigterm信号,你需要检查容器的主进程了,如果是shell脚本,那么你需要自己捕获并传递sigterm信号,而在很多的dockerfile里面写的时候,entrypoint.sh里面使用exec直接取代shell,从而能捕获到sigterm信号,如果不想写,那么可以将tini作为你的主进程,这个能捕获并传递信号,而且能清理掉僵尸进程。

    当你发现不能正确关闭的时候咋办,可以来追踪一下是否发送了信号。

登录宿主机,找到pod的主进程strace -f -e trace=signal -p pid

   这个时候你就可以看到发送了什么信号,在普通的容器中,一般是收到sigterm信号,但是在有的pod中,收到的sigquit信号,例如nginx,例如openresty,当他们进行reload的时候,其实也是发送的sigquit信号,而且在他们的dockerfile中,有如下的写法。当然,你也可以到node上去,查看kubelet的日志,里面会看到对应的发送信号的日志。

STOPSIGNAL SIGQUIT

   这两个信号有啥区别呢,sigterm信号对于长连接来说,它会一直等,直到客户端关闭连接,也就是说,如果长连接持续发送请求,那么这个连接基本不会关闭;而对于sigquit信号来说,是快速关闭,针对连接上的当前请求处理完成之后,立刻关闭连接。

    3 pod关闭时间的设置

    在有的时候,不能让pod关闭的太快,或者是快速的收到sigterm或者sigquit信号,那么可以在prestop里面直接sleep一个120秒,然后将terminationGracePeriodSeconds设置为300秒,这样就给了pod充足的时间来消化当前的请求,让请求更加无损的切换到新的pod或者连接上去。

    在k8s的各个版本中,在v1.24版本以下都有个bug,配置了上面的两个时间之后,会导致pod删除的时间是120+300秒,但是在v1.26以上好像修复了,也就是基本上到了300秒就会直接删除pod,不会有过多的时间。这种配置带来的坏处就是每次你进行deployment升级或者是kubectl删除pod的时候,你会发现差不多要300秒才会删除这个pod,rolling的整体时间会变长。

    在进行长连接销毁的时候,涉及到的是一个是老的连接,一个是新的连接,对于新的连接来说,需要的是pod的状态是ready的,也就是能正常的为客户端提供服务,也就意外着pod的liveness和readyness两个健康检查要进行配置,否则没准新请求就挂了,还没有ready就把流量调度上去了;而对于老的连接来说,主要是多久处理完成,从而对老的pod给予多少宽限的时间,也就是gracetime的设置,一个请求的最长超时时间是多久,太长的请求,其实。。。抛弃也无所谓了。

   在nginx ingress里面,reload可能会造成问题,所以很多都开始直接内存进行更新对应的配置了,那么为什么reload会有问题,而直接更新内存不会有问题呢?

    因为如果reload了,你会发现老的woker process被关闭了,新的进程起来了,新的连接要和新的进程建连,而如果在内存中更新,这个worker process是不会发生变化的,从而无论是什么连接,都可以保持不变进行继续处理。

    4 压测抓包

    当上面的都做完之后,就可以进行压测了,例如当你使用的ingress的时候,就可以不停的reload,就可以不停的修改ingress规则,然后查看压测的结果是否有5xx产生,如果有,就要检查下是不是哪个步骤出了问题。

    当追踪信号的时候,如果出现了sigkill,那么估计会有连接被杀死,那么可以使用抓包看看,到底是长连接没释放,还是说服务端发送了reset包。由于压测的时候,包其实是很多的,所以一般可以用分段抓包,一个包100m进行抓包,从而减少分析的难度。

tcpdump -C 100 -w tcp.pcap

eebe78d4a20a4c4779907ef0cc9b9bfd.png

风言风语

 连接的关闭是否优雅,就看请求是否有失败的可能,如果可能有失败的,那么说明不是优雅的,尽量优雅,但是有些垃圾流量其实也是可以适当抛弃的,用客户端来进行兜底处理。

  只要你足够细心,那么你就会发现各种各样的问题,然后就会有无穷的问题来解。抓住发现问题的点,然后一点一点分析下去,总是会找到解决问题的办法,如果实在没招了,那就放弃下一个。


http://www.kler.cn/a/428961.html

相关文章:

  • STL--set(集合)
  • 【PyCharm】连接 Git
  • R数据分析:有调节的中介与有中介的调节的整体介绍
  • ChatGPT 写作系列
  • 蓝桥杯训练—斐波那契数列
  • 介绍下常用的前端框架及时优缺点
  • 【NLP 5、深度学习的基本原理】
  • ip地址显示本地局域网什么意思?ip地址冲突怎么解决
  • 奔跑吧Linux内核(入门篇)- 心得笔记总结
  • docker安装victoriametrics(单机版)
  • 深度学习入门课程学习笔记(第24周)
  • 如何在 IntelliJ IDEA 中为 Spring Boot 应用实现热部署
  • 前端的 Python 入门指南(一):常用语法和关键字对比
  • TCP/IP 协议图--计算机网络体系结构分层
  • STM32 GPIO 8种工作模式的应用场景
  • Mybatis 关联查询
  • SABO-CNN-BiGRU-Attention减法优化器优化卷积神经网络结合双向门控循环单元时间序列预测,含优化前后对比
  • [小白系列]Ubuntu安装教程-安装prometheus和Grafana
  • C# 事件(Event)
  • [HNCTF 2022 WEEK2]ez_ssrf
  • 【MySQL】库的操作+表的操作
  • LeetCode2239找到最接近 0 的数
  • Kotlin报错:lateinit property xxx has not been initialized
  • Spring IoC的基本概念
  • 解释器模式的理解和实践
  • RabbitMq 基础