一、高吞吐量
- Kafka 是为处理高吞吐量的实时数据而设计的分布式消息系统。它可以轻松处理数千条消息每秒的输入,并且可以通过水平扩展(添加更多的 broker)来处理更大的负载。
- 这得益于其高效的存储和消息传递机制,它使用了分区(Partition)和批量处理(Batch)的方式,将消息存储在磁盘上,并以顺序读写的方式来提高性能。顺序读写对于磁盘来说比随机读写要快得多,因此 Kafka 可以在处理大量消息时保持较高的性能。
二、分布式架构
- Kafka 采用分布式架构,由多个 broker 组成集群。消息存储在不同的分区中,并且这些分区可以分布在不同的 broker 上。
- 当有新消息进入时,它会被分配到相应的分区中。分区可以在集群内进行复制,以提高可用性和容错性。每个分区有一个 leader 和多个 follower,leader 负责处理读写请求,follower 用于备份,一旦 leader 出现故障,follower 可以被选举为新的 leader。
三、持久化存储
- Kafka 中的消息会持久化存储在磁盘上,而不是仅仅在内存中。这意味着即使在消息被消费后,它们仍然可以保留一段时间,根据配置的保留策略,如按时间(如保留 7 天)或按大小(如保留 10GB 的消息)。
- 这种持久化存储使得 Kafka 可以用于存储大量的数据,并且在需要时可以重新消费这些数据,这对于数据的可追溯性和审计等需求非常有用。
四、多生产者和多消费者<