当前位置: 首页 > article >正文

【Kafka】数据清理机制

  1. 文件存储机制

在这里插入图片描述

  • 分区存储:生产者通过topic发送数据,topic是逻辑概念,实际存储数据于分区,一个topic可对应多个分区,分区对应文件夹存储数据文件。
    - 文件分段
    • 分区内数据文件分段存储,每个段含.index(索引文件)、.log(数据存储文件)、.time index(时间索引文件)。
    • 分段作用一是方便删除无用文件,提高磁盘利用率;二是便于查找数据,log和index文件以偏移量命名,可依偏移量定位文件查找数据。

在这里插入图片描述

  1. 数据清理机制
    • 清理策略
      • 根据消息保留时间:消息保存超指定时间触发清理,默认保留168小时(七天),可在broker配置文件调整。
      • 根据topic存储数据大小:一个topic所有分区数据总和达阈值则删除最久数据文件,默认关闭,需手动开启。

回答面试官问题

先介绍kafka存储结构(topic含多个分区,分区内文件分段存储),

再说明日志清理的两个策略及相关默认设置和手动开启情况。


http://www.kler.cn/a/458135.html

相关文章:

  • ubuntu 18.04安装GCOPTER(最新)
  • 17、【ubuntu】【gitlab】【nuttx】自动识别远程仓库默认分支名
  • JVM学习-内存结构(一)
  • 《机器学习》——线性回归模型
  • OSI 七层模型 | TCP/IP 四层模型
  • 自由学习记录(31)
  • LeetCode:404.左叶子之和
  • 【多维DP】【hard】力扣1223. 掷骰子模拟
  • 【Java】面试题 并发安全 (1)
  • C语言-详细讲解-字符串加密
  • 视频里面的音乐怎么提取出来?工具分享和教程示例
  • 前端工作中问题点拆分
  • 4-Linux 文件系统组成
  • 爬虫过程中遇到异常怎么办?
  • C++ 学习第22天:智能指针与异常处理
  • 硬件工程师面试题 21-30
  • 2024西北工业大学noj(C语言)记录全100题
  • 【pytorch】conda安装pytorch
  • 路由器静态路由配置
  • Flink源码解析之:如何根据算法生成StreamGraph过程