当前位置: 首页 > article >正文

【大数据学习 | kafka高级部分】kafka的优化参数整理

1. 优化参数

参数解释
buffer.memoryRecordAccumulator 缓冲区总大小,默认 32m
batch.size默认 16k,sender线程拉取数据大小
linger.mssender线程拉取数据等待时长
acks确认应答 0 1 -1
max.in.flight.requests.per.connection没有ack返回时候可以发送几次数据
retriesproducer失败重试次数
enable.idempotence启幂等性,默认 true
compression.type生产者发送的所有数据的压缩方式
auto.leader.rebalance.enableleader是否自动切换
leader.imbalance.per.broker.percentageleader均衡比10%
leader.imbalance.check.interval.secondsleader均衡检测时间五分钟
log.segment.bytessegment大小
log.index.interval.bytes每4k生成一个索引数据,写入一次文件
log.cleanup.policy日志删除方式
log.retention.hours数据保存时长
enable.auto.commit自动提交
auto.commit.interval.ms提交间隔
auto.offset.reset初始化消费位置
offsets.topic.num.partitions__consumer_offsets分区数量
session.timeout.ms消费者断开超时时间
max.poll.records消费者拉取条数
fetch.max.bytes消费者拉取大小
partition.assignment.strategy消费者分区分配策略

2. 数据吞吐量和数据重复问题

数据在消费的时候可能会遇见数据堆积,无法及时消费计算的问题

这个时候可以适当的调节broker的数量和partition的数量,让多个机器帮助进行处理可提高吞吐量,并且分区越多消费者就可以适当增多,让消费速度得到很大的提升

适当增加每次拉取的大小也会增加消费速度。

max.poll.records  消费者拉取条数 
fetch.max.bytes  消费者拉取大小

kafka数据稳定性保证。

首先从producer出发

ack = 0 or ack = 1 会出现数据丢失问题

ack = -1 会出现数据重复问题

开始幂等性可以进行单分区去重

保证一批次数据稳定性可以开启事物

消费者部分如果是自动提交偏移量会出现重复消费问题,手动保存偏移量就不会出现这个问题


http://www.kler.cn/a/383817.html

相关文章:

  • Python 基础笔记之生成器generator
  • vue:Transition
  • 刷题小记11:栈队列
  • 长亭那个检测能力超强的 WAF,出免费版啦
  • DS二叉树--赫夫曼树解码
  • Go nil空值或不存在的引用
  • 数据集整理
  • 机器学习:使用SVM进行人脸识别
  • Linux(CentOS)运行 jar 包
  • WireShark入门学习笔记
  • Maven(19)如何使用Maven部署项目?
  • 矩阵论 •「线性空间、基变换与向量坐标变换」
  • 批量压缩tif文件到指定物理宽度mm,同时保持DPI大于300
  • 【spring】IOC与DI
  • mysql字段是datetime如何按照小时来统计
  • Ai练习过程当中的注意事项 Ⅱ
  • 【AI日记】24.11.06 我对投资的一点浅见
  • 问:Redis为什么这么快?
  • Magentic-One:微软推出多智能体系统,用于解决跨领域的复杂网络和文件任务
  • yolov8-seg目标分割理论及代码运行实践
  • 【1个月速成Java】基于Android平台开发个人记账app学习日记——第7天,申请阿里云SMS短信服务SDK
  • 代码随想录之字符串刷题总结
  • redis与本地缓存
  • [MySQL]视图
  • 大数据中的Kafka, Zookeeper,Flume,Nginx, Sqoop与ETL
  • 一文读懂:AIOps 从自动化运维到智能化运维