当前位置: 首页 > article >正文

Kafka跨集群数据备份与同步:MirrorMaker运用

#作者:张桐瑞

文章目录

  • 前言
  • MirrorMaker是什么
  • 运行MirrorMaker
  • 各个参数的含义

前言

在大多数情况下,我们会部署一套Kafka集群来支撑业务需求。但在某些特定场景下,可能需要同时运行多个Kafka集群。比如,为了实现灾难恢复,你可以在不同机房分别部署独立的Kafka集群。如果一个机房发生故障,你可以快速切换流量到另一个正常运行的机房。另外,如果你希望为地理上较近的客户提供低延迟的消息服务,而你的主机房距离客户较远,可以在靠近客户的地区部署Kafka集群,让该集群为客户提供低延迟的服务。
要满足这些需求,除了部署多个Kafka集群外,还需要借助一些工具或框架来帮助实现数据在集群间的复制或镜像。需要注意的是,将单个集群内部不同节点之间的数据复制称为“备份”,而集群间的数据复制则称为“镜像”(Mirroring)。

Apache Kafka社区提供的MirrorMaker工具,能够帮助我们实现将消息或数据从一个Kafka集群复制到另一个集群的功能。通过使用MirrorMaker,我们可以轻松地实现跨集群的数据复制和镜像,支持多种场景,如灾难恢复、跨地域低延迟服务等。这个工具能够高效地确保不同Kafka集群间的数据一致性和可靠性,是实现集群间数据同步的重要工具之一。

MirrorMaker是什么

MirrorMaker 是 Apache Kafka 提供的一个工具,用于在不同 Kafka 集群之间复制数据。它支持将一个 Kafka 集群中的消息或数据流同步到另一个集群中,确保集群间的数据一致性和可靠性。MirrorMaker 主要用于以下几种场景:

灾难恢复:将数据从主集群复制到备用集群,如果主集群发生故障,可以快速切换到备用集群进行业务恢复。
跨地域数据同步:在不同地理位置的 Kafka 集群之间同步数据,以便为不同地区的用户提供低延迟的服务。
集群间迁移:在进行集群扩容或升级时,可以利用 MirrorMaker 在不同集群之间迁移数据,避免服务中断。

数据备份:将集群的数据复制到另一个集群作为备份,确保数据的冗余和安全性。
MirrorMaker 的工作原理是,它从源集群的一个或多个 topic 中消费消息,并将这些消息生产到目标集群中的相应 topic。通过这种方式,它能够实现跨集群的数据同步。

在使用时,可以选择使用 MirrorMaker 1(较为基础)或 MirrorMaker 2(功能更强大,支持更多特性,比如增量复制、配置更细粒度的同步等)。MirrorMaker 2 是基于 Kafka Connect 构建的,具有更高的可扩展性和容错性。
从本质上看,MirrorMaker 确实是一个消费者和生产者的结合体。消费者负责从源集群(Source Cluster)消费数据,而生产者则将这些数据发送到目标集群(Target Cluster)。整个镜像流程如下图所示:
在这里插入图片描述
MirrorMaker连接的源集群和目标集群,会实时同步消息。当然,你不要认为你只能使用一套MirrorMaker来连接上下游集群。事实上,很多用户会部署多套集群,用于实现不同的目的。

通过下面这张图,可以清晰明白通过MirrorMaker进行多集群间镜像。图中部署了三套集群:左边的源集群负责主要的业务处理;右方的目标集群可以用于执行数据分析;而右下方的目标集群则充当源集群的热备份。
在这里插入图片描述

运行MirrorMaker

Kafka默认提供了MirrorMaker命令行工具kafka-mirror-maker脚本,它的常见用法是指定生产者配置文件、消费者配置文件、线程数以及要执行数据镜像的主题正则表达式。比如下面的这个命令,就是一个典型的MirrorMaker执行命令。

# bin/kafka-mirror-maker.sh --consumer.config ./config/consumer.properties --producer.config ./config/producer.properties --num.streams 8 --whitelist ".*"

各个参数的含义

consumer.config:指定MirrorMaker中消费者的配置文件地址,最主要的配置项是bootstrap.servers,也就是该MirrorMaker从哪个Kafka集群读取消息。因为MirrorMaker有可能在内部创建多个消费者实例并使用消费者组机制,因此你还需要设置group.id参数。建议额外配置auto.offset.reset=earliest,否则,MirrorMaker只会拷贝那些在它启动之后到达源集群的消息。

producer.config:指定MirrorMaker内部生产者组件的配置文件地址。通常来说,Kafka Java Producer很友好,你不需要配置太多参数。唯一的例外依然是bootstrap.servers,你必须显式地指定这个参数,配置拷贝的消息要发送到的目标集群。

num.streams:MirrorMaker要创建多少个KafkaConsumer实例。使用的是多线程的方案,即在后台创建并启动多个线程,每个线程维护专属的消费者实例。在实际使用时,可以根据你的机器性能酌情设置多个线程。

whitelist:如命令所示,这个参数接收一个正则表达式。所有匹配该正则表达式的主题都会被自动地执行镜像。在这个命令中,指定 “.*”,表明要同步源集群上的所有主题。


http://www.kler.cn/a/591137.html

相关文章:

  • 错排(数学层面)
  • Django:内置和自定义中间件
  • k8s资源管理介绍
  • 在 Visual Studio Code 中高效使用 Pylance:配置、技巧与插件对比
  • 【机器学习】基于conda虚拟环境的gcc、g++版本升级
  • 桌子(table、desk)以及其他常见物体的urdf模型,用于搭建机器人环境如pybullet、Gazebo
  • Vue下载与安装步骤
  • PCIe(Peripheral Component Interconnect Express)详解
  • Feign 调用接口跟调用本地方法一样,这个是怎么实现的?
  • 集成电路制造中LIMS系统的应用 内检LIMS在集成电路的作用
  • 运动焦虑锻炼贴士
  • 数据结构 -- 二叉树的存储结构
  • keepalived的工作原理和脑裂
  • ubuntu24.04虚拟机系统中挂载rootfs.img到rootfs_dir目录,使用chroot切换根目录到roofs_dir报错
  • 深度解析:通过 AIBrix 多节点部署 DeepSeek-R1 671B 模型
  • 传奇怪物素材 8方向高清怪物 PNG格式 游戏怪物 11组
  • linux 安全 xshell 使用
  • 【2025】基于python+django的实验室管理系统(源码、万字文档、图文修改、调试答疑)
  • AI爬虫 :Firecrawl的安装和详细使用案例(将整个网站转化为LLM适用的markdown或结构化数据)
  • AI智能土地利用变化分析系统