当前位置：首页 > article >正文

Kafka大厂面试14问（附答案）

article 2024/11/14 19:47:38

怎么保证顺序消费？

同一个生产者发送到同一分区的消息，先发送的比后发送的offset要小。同一生产者发送到不同分区的消息，消息顺序无法保证。

怎么解决这个问题？

给一个topic只设置一个分区

相同key会发给一个分区

怎么保证幂等性？

生产者：如果发生网络抖动等导致ack返回超时，可以通过producer Id + sequence Number，每个producer在初始化时都会有唯一的pid，对每个生产者发送到分区中的消息都会对应一个从0递增的sequence Number，这样分区接收到消息的时候就能判断sequenceNumber是否重复

消费者：比如设置了手动提交offset，消息已经拉取消费了但是还没提交就挂了，可能会导致重复拉取同一段消息。用redis分布式锁或者根据业务判断该消息是否被消费过

kafka消息丢失？

生产者：

Ack = 0，表示不需要等待任何broker回复，可能会在发送到broker或者fl同步的时候丢消息

Ack = 1，表示等待master回复，可能发送到ld还没来得及同步到follwer，master就挂了，导致消息丢失

Ack = -1，等ld和isr中的fl都收到消息，才发送ack

消费者：

设置的自动提交offset，消息拉取了，但是没消费完，就提交了offset，但是消费者宕机了；

另外在ld选举的时候，zk中会维护isr（已同步ld数据）和osr（未同步ld数据）中选举，配置设置为true的时候，如果isr没有数据就会从osr选举

解决：

配置ack为-1或者all
不允许选举isr以外的副本作为ld
可以设置最小同步数量>1，如果不满足则生产者端会抛异常
减少broker的刷盘间隔

线上消息积压怎么解决？

生产者发送消息过快，消费者消费慢 -> 如果需要紧急处理，可以把修改消费端程序，让它将收到的消息快速转发到其他topic，然后启动多个消费者同时消费新主题的不同分区
消息数据格式变动，导致一直消费不成功，也可能导致消息积压，可以转发到死信队列

不同消息队列的优缺点？

rabbitmq：erlang语言，性能好，支持高并发，不利于二次开发

kafka：java实现，高性能高可用，适用于大数据量场景，单机吞吐量百万，缺点单机容量有限

rocketmq：java实现，方便二次开发，高可用高可靠，单机吞吐量十万

kafka高性能高吞吐的原因？

磁盘的顺序读写（随机读写的话会多次寻址和旋转），而且会预读一些放在内存中
零拷贝：传统是先读取磁盘空间到内核缓冲区，然后到用户缓冲区，再到socket发送缓冲区；零拷贝是直接从内核缓冲区到socket发送缓冲区，避免了内核态和用户态的切换
分区分段：每一个分区都是很多个segment文件，针对这些文件有索引，可以快速查找
批量压缩，批量读写：比如发送消息的时候是异步发送，当发送一条消息时不会直接发送给broker，而是会先缓存起来，然后批量发送，减少io
页缓存：在缓存中操作数据，比在磁盘操作更快