当前位置: 首页 > article >正文

【1】 Kafka快速入门-从原理到实践

文章目录

    • 🔍 一、引言
    • 📜 二、Kafka 的历史
    • 🏗️ 三、Kafka 的核心结构
      • 🖥️ (一)Broker
      • 📋 (二)Topic
      • 📄 (三)Partition
      • 📤 (四)Producer
      • 📥 (五)Consumer
      • 🐒 (六)Zookeeper
    • 💡 四、Kafka 的重点概念
      • 📨 (一)消息
      • 📏 (二)偏移量(Offset)
      • 🔄 (三)副本(Replica)
      • 👥 (四)消费者组(Consumer Group)
      • 📝 (五)分区策略
    • 📈 五、Kafka 的重点使用场景
      • 💻 (一)大数据处理
      • 🌊 (二)实时流处理
      • 📄 (三)日志收集与聚合
      • 💬 (四)消息系统
    • 📋 六、Kafka 的工作模式
      • 🔌 (一)点对点模式
      • 📣 (二)发布/订阅模式
    • 🐍 七、Python 如何使用 Kafka 进行操作
      • 📥 (一)安装 Kafka-Python 库
      • 📤 (二)生产者示例
      • 📥 (三)消费者示例
      • 📝 (四)高级用法
    • 📋 八、总结

🔍 一、引言

在当今大数据和分布式系统的时代,消息队列扮演着至关重要的角色。Kafka 作为一款高性能、分布式的消息队列系统,广泛应用于众多企业级架构中。它能够处理海量的实时数据,实现系统间的松耦合,为大数据处理、实时流处理、日志收集等多种场景提供了强大的支持。本文将深入探讨 Kafka 的历史、核心结构、重点概念、使用场景、工作模式以及在 Python 中的使用方法,旨在为读者全面理解和应用 Kafka 提供丰富的知识和实践指导。

📜 二、Kafka 的历史

Kafka 最初由 LinkedIn 开发,旨在解决其内部大规模数据处理和实时消息传递的需求。随着时间的推移,Kafka 的高性能、可扩展性和可靠性等优点逐渐被业界认可,于 2011 年开源,并迅速成为 Apache 软件基金会的顶级项目。如今,Kafka 已经被众多知名企业广泛采用,如 Netflix、Uber、Airbnb 等,成为构建现代分布式系统不可或缺的一部分。

🏗️ 三、Kafka 的核心结构

🖥️ (一)Broker

Broker 是 Kafka 集群中的核心节点,负责存储和转发消息。一个 Kafka 集群可以包含多个 Broker,它们协同工作以实现高可用性和水平扩展性。每个 Broker 都有自己的唯一标识符,并且存储着一部分主题(Topic)的数据。

📋 (二)Topic

Topic 是消息的逻辑分类,类似于数据库中的表。生产者(Producer)将消息发送到特定的 Topic,而消费者(Consumer)则从 Topic 中订阅并接收消息。一个 Topic 可以被划分为多个分区(Partition),以实现并行处理和高吞吐量。

📄 (三)Partition

Partition 是 Topic 的物理细分,每个 Partition 是一个有序的、不可变的消息序列。消息在 Partition 中按照先进先出(FIFO)的顺序存储和读取。不同的 Partition 可以分布在不同的 Broker 上,从而实现数据的分布式存储和负载均衡。每个 Partition 都有一个主副本(Leader Replica)和多个从副本(Follower Replica),主副本负责处理读写请求,从副本用于数据备份和故障恢复。

📤 (四)Producer

Producer 是消息的生产者,它负责将消息发送到 Kafka 的 Topic 中。Producer 可以根据指定的分区策略将消息发送到特定的 Partition,例如基于消息的键值进行哈希分区,或者按照轮询的方式将消息均匀分布到各个 Partition。

📥 (五)Consumer

Consumer 是消息的消费者,它从 Kafka 的 Topic 中订阅并接收消息。多个 Consumer 可以组成一个消费者组(Consumer Group),同一消费者组中的 Consumer 共同消费一个 Topic 中的消息,每个 Partition 只能被同一个消费者组中的一个 Consumer 消费,这样可以实现消息的负载均衡和水平扩展。消费者通过定期向 Kafka 集群发送心跳来维持其在消费者组中的成员资格,并获取新的消息。

🐒 (六)Zookeeper

Zookeeper 在 Kafka 集群中起着协调和管理的作用。它负责维护集群的元数据信息,如 Broker 的注册信息、Topic 的配置信息、Partition 的分配信息以及消费者组的状态信息等。Kafka 依赖 Zookeeper 实现集群的动态扩展、故障恢复和负载均衡等功能。

💡 四、Kafka 的重点概念

📨 (一)消息

消息是 Kafka 中数据传输的基本单元,它由键(Key)、值(Value)和时间戳(Timestamp)等组成。键可以用于指定消息的分区策略,值则是实际传输的数据内容。时间戳记录了消息产生的时间,对于一些基于时间的操作和处理非常重要。

📏 (二)偏移量(Offset)

偏移量是消费者在 Partition 中消费消息的位置标记。消费者通过记录自己消费到的偏移量,可以在下次启动时从上次停止的位置继续消费,从而实现消息的持久化消费和故障恢复。偏移量是一个单调递增的整数,每个 Partition 都有自己独立的偏移量序列。

🔄 (三)副本(Replica)

如前所述,Kafka 的 Partition 有主副本和从副本之分。主副本负责处理读写请求,从副本则不断从主副本同步数据,以保持数据的一致性。当主副本所在的 Broker 发生故障时,Kafka 会自动从从副本中选举一个新的主副本,从而保证服务的可用性。

👥 (四)消费者组(Consumer Group)

消费者组是 Kafka 实现消费者负载均衡和水平扩展的重要机制。同一消费者组中的消费者共同消费一个 Topic 的消息,每个 Partition 只能被同一个消费者组中的一个消费者消费。不同消费者组之间相互独立,它们可以同时消费同一个 Topic 的消息,从而实现不同


http://www.kler.cn/a/385666.html

相关文章:

  • Iceberg 写入和更新模式,COW,MOR(Copy-on-Write,Merge-on-Read)
  • 【Linux系统编程】第四十五弹---线程互斥:从问题到解决,深入探索互斥量的原理与实现
  • middleware中间件概述
  • 020_Servlet_Mysql学生选课系统(新版)_lwplus87
  • C++ 语言实现读写.csv文件.xls文件
  • DimensionX:从单张图片生成高度逼真的 3D 和 4D 场景
  • 一七七、window.performance API使用介绍
  • SQL pta习题
  • 我谈正态分布——正态偏态
  • Stored procedures in PostgreSQL
  • C++入门基础知识142—【关于C++ 友元函数】
  • 国产操作系统ctyun下安装Informix SDK开发包的方法
  • Notepad++ 更改字体大小和颜色
  • [每周一更]-(第122期):模拟面试|数据库面试思路解析
  • 类文件结构详解
  • Leecode热题100-543.二叉树的直径
  • 【C++练习】生成并打印所有可能的三色组合
  • 组队学习首次开放许愿啦!下个月想学什么,听你的
  • C 语言函数指针 —— 实现程序分层
  • 腾讯为什么支持开源?
  • SpringMVC执行流程与运行原理解析
  • 智能提醒助理系列-springboot项目彩虹日志+TraceID
  • 基于单片机的智能家居安防系统设计
  • Vite与Vue Cli的区别与详解
  • 985研一学习日记 - 2024.11.8
  • 浅谈绝缘测试以及压缩电机应用