互联网全景消息(11)之Kafka深度剖析(下)
一、Kafka底层架构
1.1 存储架构
在前面讲过kafka每个主题可以有多个分区,每个分区在它所在的broker上创建一个文件夹每个分区又分为多个段,每个段两个文件,log文件存储顺序消息,index文件里存消息的索引,然后每一个段的命名直接以当前段的第一条消息的offset为名。
需要注意的是偏移量,不是序号,然后偏移量是从下标0开始,第几条消息 = 偏移量 +1,类似于数组长度和下标。
例如:
0.log -> 该文件存储8条数据,offset为0-7;
8.log -> 有两条,offset为 8-9;
10.log -> 有xxx条,offset从10-xx
1.1.2 日志索引
每个log文件配备一个索引文件*.index,文件格式为:(offset,内存偏移量)
kafka中查找消息的整体流程如下:
- consumer发起请求要求从offset=6的消息开始消费;
- kafka首先会根据offset,查找offset=6的消息存在在那个*.log文件中,定位到这个.log文件;
- 定位到这个log文件之后,会再去对应x.log文件对应的x.index文件中去查找该消息的具体定位,如上图发现到6,9807,注意9807就是消息在x.log文件具体的内存偏移量;
- 那么就会从x.log文件9807位置开始读取,具体读取的长度就是到下一条消息的偏移量即可;
需要注意的是,*.index并不是存储每一条消息的内存偏移量,而是一个散列索引,所以可能还是存在一小段的内存检索;
1.1.2 日志删除
Kafka作为消息中间件,数据需要按照一定的规则删除,否则数据量太大会把集群存储空间占满。
数据删除的方式:
- 按照时间,超过一段时间后删除过期消息;
- 按照消息大小,消息数量超过一定大小后删除最旧的数据;
Kafka删除数据的最小单位:segment,也就是直接删除对应文件*.log,一删就是删除一个log和对应的index文件。
kafka通过配置retention.bytes:超出后旧日志被删除跟retention.ms超出时间后旧日志被删除。接下来我们新建一个topic来验证kafka的日志删除策略;
kafka-topics.sh --zookeeper zookeeper:2181 --create --topic test3 --partitions 2 --replication-factor 1 --config retention.bytes=1000 --config retention.ms=60000 --config segment.bytes=1000
retention.ms=60000:即超出一分钟后的旧日志会被删除;
retention.bytes=1000:超出1000byte的旧日志会被删除
segment.bytes=1000 :配置log的每个segment的大小,当log文件大小超出这个值的时候就会被新建新的log文件
然后我们进入到容器中查看对应的日志存储文件:
然后我们指定生产者往partition0中发消息然后来验证我们的日志删除策略:
@RestController
public class PartitionProducer {
@Resource
private KafkaTemplate<String, Object> kafkaTemplate;
// 指定分区发送
// 不管你key是什么,到同一个分区
@GetMapping("/kafka/partitionSend/{key}")
public void setPartition(@PathVariable("key") String key) {
kafkaTemplate.send("test2", 0,key,"key="+key+",msg=指定0号分区");
}
// 指定key发送,不指定分区
// 根据key做hash,相同的key到同一个分区
@GetMapping("/kafka/keysend/{key}")
public void setKey(@PathVariable("key") String key) {
kafkaTemplate.send("test2", key,"key="+key+",msg=不指定分区");
}
// 什么也不指定
@GetMapping("/kafka/test/{msg}")
public void sendMessage(@PathVariable("msg") String msg) {
Message message = new Message();
message.setMessage(msg);
kafkaTemplate.send("test2", JSON.toJSONString(message));
}
}
此时就会发现我们超出了大小就会分裂出来新的文件。
然后我们观察60s之后再去刷新看下对应的日志文件。
1.2 零拷贝
零拷贝(英语: Zero-copy) 技术是指计算机执行操作时,CPU不需要先将数据从某处内存复制到另一个特定区域。这种技术通常用于通过网络传输文件时节省CPU周期和内存带宽。
1.2.1 传统数据传输机制
比如:读取文件,再用socket发送出去,实际经过四次copy。伪码实现如下:
buffer = File.read()
Socket.send(buffer)
第一次:将磁盘文件,读取到操作系统内核缓冲区;
第二次:将内核缓冲区的数据,copy到应用程序的buffer;
第三步:将application应用程序buffer中的数据,copy到socket网络发送缓冲区(属于操作系统内核的缓冲区);
第四次:将socket buffer的数据,copy到网卡,由网卡进行网络传输。
分析上述的过程,虽然引入DMA来接管CPU的中断请求,但四次copy是存在“不必要的拷贝”的。实际上并不需要第二个和第三个数据副本。应用程序除了缓存数据并将其传输回套接字缓冲区之外什么都不做。相反,数据可以直接从读缓冲区传输到套接字缓冲区。
1.2.2 DMA
DMA其实是由DMA芯片来控制的,通过DMA控制芯片,可以让网卡等外部设备直接去读取内存,而不是由cpu来回拷贝传输,这就是零拷贝。目前计算机主流硬件基本都支持DMA,就包括我们的硬盘和网卡。
kafka就是调取操作系统的sendfile,借助DMA来实现零拷贝数据传输的。
1.3 分区一致性
1.3.1 水位值
先来回顾两个值:
LEO:指向了当前已经写入的最大偏移量;
HW:指向了目前可以被消费的最大偏移量;
其中LEO >= HW,需要注意的是分区是有leader和follower的,最新写的消息会进入到leader,follower从leader不停地同步,无论是leader还是follower,都有自己的HW和LEO,存储在各自分区的磁盘上,但是leader会多存储一个Remote LEO,它表示针对各个follower的LEO,leader又额外存储了一份各个follower的LEO;
leader会拿这些remote值里最小的来更新自己的hw,具体过程如下。
1.3.2 同步原理
我们用伪代码来表示上面这个流程:
/**
* @author maoqichaun
* @date 2025年01月11日 15:24
*/
public class Follower {
private List<Message> messages;
private HW hw;
private LEO leo;
@Scheduled("不停地向leader发起同步请求")
void execute(){
// 向leader发起fetch请求,将自己的leo传过去
// leader返回leo之后最新的消息,以及leader的hw
LeaderReturn lr = leader.fetch(leo);
// 存消息
this.messages = lr.getMessages();
// 增加follower的leo的值
this.leo = this.leo + lr.newMsg.length;
// 比较自己的leo和leader的hw,取两者最小的作为follower的hw
this.hw = Math.min(this.hw, lr.hw);
}
}
// leader节点返回的报文
class LeaderReturn {
List<Message> newMsg;
// leader的hw
HW leaderHw;
}
public class Leader {
private List<Message> messages;
private HW hw;
private LEO leo;
// 如果此时有多个follower的话,这里就会有多个RemoteLEO对象
private RemoteLEO remoteLEO;
LeaderReturn fetch(LEO followerLEO){
// 根据follower传过来的leo来更新leader的remote
this.remoteLEO = followerLEO;
// 然后取ISR(所有可用副本)得最小leo作为leader的hw
this.hw = Math.min(this.remoteLEO.getIsr(),this.leo);
// 从leader的消息列表里,查找大于follower的leo的所有消息
List<Message> newMsg = this.messages.stream().filter(msg -> msg.getSendTime() > this.hw).collect(Collectors.toList());‘
// 将最新消息(大于follower leo的那些消息)以及leader的hw返回给follower
return new LeaderReturn(newMsg,this.hw);
}
}
1.3.3 Leader Epoch机制
发生的背景:0.11版本之前的kafka,完全借助hw作为消息的基准,不管leo,发生故障之后的规则:
- follower故障再次恢复后,从磁盘读取hw的值并开始剔除后面的消息,并同步leader消息;
- leader故障后,新当选的leader的hw作为新的分区的hw,其余节点按照此hw进行剔除数据,并重新同步;
上诉根据hw进行数据恢复出现数据丢失和数据不一致的情况,下面分开来看:
假设:我们存在两个副本:leader(A)、follower(B)
1)丢数据
- 某个时间点节点B挂了,当它恢复后,以挂之前的hw为准,设置leo=hw;
- 这就造成了一个问题:现实中,leo很可能是大于hw的,这种暴力赋值就导致了leo被回退了;
- 如果这个时候,恰恰A也挂掉了,kafka会重选leader,B被选中。
- 过段时间,A恢复后变成follower,从B开始同步数据。
- 问题就来了,上面说了,B得数据是被回退过的,以他为基准会有问题;
- 最终结果就是:两者的数据都会发生丢失,没有地方可以找回;
2):场景二:数据不一致;
- 假设A/B节点都挂掉了;
- B先恢复,但是它的hw有可能挂之前没从A同步过来(A是挂之前的leader);
- 我们假设,A.hw = 2,B.hw=1;
- B恢复之后,集群里面只有B自己,所以被选中为leader,B开始接受新消息;
- B.hw上涨,变为2;
- 然后此时A恢复了,原来A.hw=2,恢复后B得hw,也就是以2为基准开始同步。
- 问题就来了,B当leader后新接到的2号消息不回同步给A的,A一直保留着他当leader时的旧数据。
- 那么此时节点A,B的数据就存在不一致了;
改进思路:0.11之后,kafka改进改进了hw做主的规则,这个就是 leader epoch,leader epoch给leader节点带了一个版本号,类似于乐观锁的设计,它的思想是,一旦机器发生故障,重启之后,不再机械的将leo退回hw,而是借助epoch的版本信息,去请求当前的leader,让它去算一算leo应该是什么。
实现原理:
- A为(leo =2,hw=2),B为(leo =2,hw=1);
- B重启,但是B不着急将leo打回hw,而是发起一个Epoch请求给当前的leader,也就是A;
- A收到LE=0,发现和自己的LE一样,说明B在改掉前后,leader没变,但是A自己;
- 那么A就将自己的leo的值返回给B,也就是数字2;
- B收到2后和自己的leo做比较取最小值,发现也是2,那么就不会再将leo回退到2;
- 没有发生回退,那就是信息1的位置没有被覆盖,最大程度的保护数据;
- 如果和上面一样,A挂掉了,B被选为leader;
- 那么A再次启动之后,从B开始同步数据;
- 因为B之前没有回退,1号信息得到了保留;
- 同时B的LE(Epoch号码)开始增加,从0变成1,offset记录为B当leader时的位置,也就是2;
- A传过来的epoch为0,B是1,不相等,那么取大于0的所有epoch里最小的(现实环境可能发生了多次重新选主,有多条epoch)
- 其实就是LE=1的那条,现实中可能有多条,并找到它的offset(也就是2)给A返回回去;
- 最终A得到了B同步过来的数据;
再来看看一致性问题的解决:
- 还是上面的场景,AB同时挂掉,但是hw还没有同步,那么A.hw=2,B.hw=1;
- B先启动被选成了leader,新leader选举之后,epoch加了一条记录;(参考下图,LE=1,这时候offset=1);
- 表示B从1开始往后继续写数据,新来了一条小学,内容为m3,写到1号位
- A启动前,集群只有B自己,消息被确认,hw上涨到2,变成了下面的样子:
- A开始恢复,启动后向B发送epoch请求,将自己的LE=0告诉leader,也就是B
- B发现自己的LE不同,同样去大于0的LE里最小的那条,也就是1,对应的offset也就是1,返回给A
- A从1开始同步数据,将自己本地的数据截断,覆盖,hw上升到2;
- 那么最新的写入的m3从B同步到了A,并覆盖了A上之前的旧数据M2
- 结果:数据一致;
epoch流程图如下: