当前位置：首页 > article >正文

Kafka 中基于 Segment 和 Offset 查找消息的过程

article 2025/2/12 20:24:18

Kafka 中基于 Segment 和 Offset 查找消息的过程

假设我们有一个 Kafka Topic，其 Partition 划分为多个 Segment 文件。每个 Segment 文件包含 .log、.index 和 .timeindex 文件。现在我们需要查找 Offset 为 368801 的消息。

假设条件

Partition：partition-0
Segment 文件：
segment-1：起始 Offset 0，结束 Offset 368795
segment-2：起始 Offset 368796，结束 Offset 737591
segment-3：起始 Offset 737592，结束 Offset 1106387
目标 Offset：368801

步骤详解

1、找到目标 Offset 所在的 Segment 文件

二分查找确定 Segment 文件：
起始 Offset 范围：[0, 368795]（segment-1），[368796, 737591]（segment-2），[737592, 1106387]（segment-3）。
目标 Offset 368801 落在 [368796, 737591] 范围内，因此目标 Segment 文件是 segment-2。

2、在 Segment 文件中查找具体的 Message

打开 .index 文件：
打开 368796.index 文件，该文件记录了部分 Offset 及其对应的物理位置（即在 .log 文件中的偏移量）。
计算相对 Offset：
目标 Offset 368801，Segment 文件起始 Offset 368796，相对 Offset = 368801 - 368796 = 5。
查找相对 Offset：
使用二分查找找到小于或等于 5 的最大相对 Offset 条目。
假设 .index 文件内容如下（每行表示一个索引条目，格式为相对Offset: 物理偏移量）：
查找相对 Offset 5，找到小于或等于 5 的最大相对 Offset 是 4，对应的物理偏移量为 256。

3、顺序扫描找到确切的 Message

从物理偏移量开始扫描：
打开 368796.log 文件，从物理偏移量 256 开始顺序扫描。
逐条读取消息，直到找到 Offset 为 368801 的那条消息。
示例数据
假设 .log 文件内容如下（简化表示）：
从物理偏移量 256 开始，逐条读取直到找到 Offset 为 368801 的消息。

Offset: 368796, Size: 100, Message: "Message 368796"
Offset: 368797, Size: 100, Message: "Message 368797"
Offset: 368798, Size: 100, Message: "Message 368798"
Offset: 368799, Size: 100, Message: "Message 368799"
Offset: 368800, Size: 100, Message: "Message 368800"
Offset: 368801, Size: 100, Message: "Message 368801"  <-- 目标消息

总结

通过这个例子可以看到，Kafka 利用以下步骤高效地查找特定 Offset 的消息：
二分查找确定 Segment 文件：快速定位目标 Offset 所在的 Segment 文件。
稀疏索引查找：利用 .index 文件中的稀疏索引，找到接近目标 Offset 的物理偏移量。
顺序扫描精确定位：从找到的物理偏移量开始顺序扫描，直到找到目标 Offset 的消息。
这套机制结合了多种高效的查找方法，确保了 Kafka 在处理大规模数据时能够快速、准确地查找消息。

http://www.kler.cn/a/542520.html

相关文章：

Ollama 简单好用好玩

carbon 加入 GitCode：Golang 时间处理的 “瑞士军刀”

前端快速生成接口方法

通过客户端Chatbox或OpenwebUI访问识别不到本地ollama中的模型等问题的解决

深入Linux系列之进程地址空间

性能优化中的系统架构优化

解决 keep-alive 缓存组件中定时器干扰问题

STM32、GD32驱动TM1640原理图、源码分享

新数据结构(4)——Java继承

Python实现GO鹅优化算法优化支持向量机SVM分类模型项目实战

港中文腾讯提出可穿戴3D资产生成方法BAG，可自动生成服装和配饰等3D资产如，并适应特定的人体模型。

Java 读取 PDF 模板文档并替换内容重新生成 PDF

CES Asia 2025：科技盛宴助力中国数字经济腾飞

中间件-安装Minio-集成使用（ubantu-docker）

Vue项目--动画效果的改变

Swift的方法派发机制

模块化的基本概念

docker 安装 Prometheus、Node Exporter 和 Grafana

【如何掌握CSP-J 信奥赛中的排序算法】

oracle执行grant授权sql被阻塞问题处理

【PromptCoder + Bolt.new】自动生成页面和路由——提升开发效率的利器

简述C#多线程

Zookeeper 作注册中心和nacos 和eruka 有什么差异？基于什么理论选择？

第七节文件与流

spring cloud 使用 webSocket

SpringCloud - Gateway 网关