当前位置: 首页 > article >正文

Kafka【十】副本(follower)从领导者(leader)同步数据的流程

【1】抓取数据

Kafka中,分区的某个副本会被指定为 Leader,负责响应客户端的读写请求。分区中的其他副本自动成为 Follower,主动拉取(同步)Leader 副本中的数据,写入自己本地日志,确保所有副本上的数据是一致的。

在这里插入图片描述

Kafka创建主题时,会根据副本分配策略向指定的Broker节点发出请求,将不同的副本节点设定为Leader或Follower。一旦某一个Broker节点设定为Follower节点,那么Follower节点会启动数据同步线程ReplicaFetcherThread,从Leader副本节点同步数据。

线程运行后,会不断重复两个操作:截断(truncate)和抓取(fetch)。

  • 截断:为了保证分区副本的数据一致性,当分区存在Leader Epoch值时,会将副本的本地日志截断到Leader Epoch对应的最新位移处.如果分区不存在对应的 Leader Epoch 记录,那么依然使用原来的高水位机制,将日志调整到高水位值处。
  • 抓取:向Leader同步最新的数据。

启动线程后,需要周期地向Leader节点发送FETCH请求,用于从Leader获取数据。等待Leader节点的响应的过程中,会阻塞当前同步数据线程。

当 Follower 副本从 Leader 副本请求数据时,Leader 会返回针对请求分区的数据。Follower 收到响应后,会将这些数据写入到本地对应分区的日志文件中。

【2】更新数据偏移量

当Leader副本返回响应数据时,除了包含分区数据外,还包含了和偏移量相关的数据HW和LSO,副本需要根据场景对Leader返回的不同偏移量进行更新。

① Offset

Kafka的每个分区的数据都是有序的,所谓的数据偏移量,指的就是Kafka在保存数据时,用于快速定位数据的标识,类似于Java中数组的索引,从0开始。

Kafka的数据文件以及数据访问中包含了大量和偏移量的相关的操作。

② LSO

起始偏移量(Log Start Offset),每个分区副本都有起始偏移量,用于表示副本数据的起始偏移位置,初始值为0。

LSO一般情况下是无需更新的,但是如果数据过期,或用户手动删除数据时,Leader的Log Start Offset可能发生变化,Follower副本的日志需要和Leader保持严格的一致,因此,如果Leader的该值发生变化,Follower自然也要发生变化保持一致。

③ LEO

日志末端位移(Log End Offset),表示下一条待写入消息的offset,每个分区副本都会记录自己的LEO。对于Follower副本而言,它能读取到Leader副本 LEO 值以下的所有消息。

④ HW

高水位值(High Watermark),定义了消息可见性,标识了一个特定的消息偏移量(offset),消费者只能拉取到这个水位offset之前的消息,同时这个偏移量还可以帮助Kafka完成副本数据同步操作。

为了提升数据的一致性,Kafka引入了高水位(HW :High Watermark)机制,Kafka在不同的副本之间维护了一个水位线的机制(其实也是一个偏移量的概念),消费者只能读取到水位线以下的的数据。这就是所谓的木桶理论:木桶中容纳水的高度,只能是水桶中最短的那块木板的高度。这里将整个分区看成一个木桶,其中的数据看成水,而每一个副本就是木桶上的一块木板,那么这个分区(木桶)可以被消费者消费的数据(容纳的水)其实就是数据最少的那个副本的最后数据位置(木板高度)。

也就是说,消费者一开始在消费Leader的时候,虽然Leader副本中已经有a、b、c、d 4条数据,但是由于高水位线的限制,所以也只能消费到a、b这两条数据。
在这里插入图片描述


http://www.kler.cn/a/291811.html

相关文章:

  • CH340系列芯片驱动电路·CH340系列芯片驱动!!!
  • 深入了解Python模拟负载均衡器:将请求高效分发至多个服务器
  • javax.net.ssl.SSLPeerUnverifiedException: Hostname 192.168.13.13 not verified:
  • 【C语言】库函数常见的陷阱与缺陷(一):字符串处理函数[3]--strlen
  • 艾体宝案例丨CircleCI 助力 ANA Systems 打造高效 CI/CD 模型
  • 第二十四天 循环神经网络(RNN)基本原理与实现
  • 基于Spring的消息推送实战(Websocket和前端轮询实现)
  • 【数据库原理及应用】【数据库系统概论第5版王珊】期末考试复习必备
  • 实现自定义的移动端双指缩放
  • 重头开始嵌入式第三十三天(数据库)
  • jmeter 梯度测试 如何查看TPS、RT指标
  • [SWPUCTF 2021 新生赛]crypto解题思路
  • Redis主从复制原理,设计的很巧妙
  • IP/TCP/UDP协议的关键知识点
  • 2024年高教社杯全国大学生数学建模竞赛B题思路(2024数学建模国赛B题思路)
  • adb remount Now reboot your device for settings to take effect
  • DS18B20温度传感器详解(STM32)
  • 鸿蒙OS试题(2)
  • 【#第三期实战营闯关作业##LMDeploy 量化部署进阶实践 】
  • MySQL 字符串操作详解和案例示范
  • vue ts as断言处理
  • 自定义 ConsoleAppender 实现日志预处理
  • tcp如何保证可靠性传输
  • 数据资产入表元年,企业如何抓住数据资产增值的机遇?
  • 核心交换机的六个基础知识
  • 智慧体育馆如何区别于传统场馆?