当前位置：首页 > article >正文

Fink CDC数据同步（二）MySQL数据同步

article 2025/1/31 17:08:54

1 开启binlog日志

2 数据准备

use bigdata;
drop table if exists user;

CREATE TABLE `user`(
      `id` INTEGER NOT NULL AUTO_INCREMENT,
      `name` VARCHAR(20) NOT NULL DEFAULT '',
      `birth` VARCHAR(20) NOT NULL DEFAULT '',
      `gender` VARCHAR(10) NOT NULL DEFAULT '',
      PRIMARY KEY(`id`)
);
ALTER TABLE user AUTO_INCREMENT = 1001;

insert into user values(default , '东契奇' , '1995-01-01' , '男');
insert into user values(default , '斯蒂芬' , '1996-12-21' , '男');
insert into user values(default , '里奥梅西' , '1993-05-10' , '男');
insert into user values(default , '凯里欧文' , '1994-08-06' , '男');
insert into user values(default , '张淋艳' , '1997-12-01' , '女');
insert into user values(default , '王珊珊' , '1995-03-01' , '女');
insert into user values(default , '唐佳丽' , '1994-07-01' , '女');
insert into user values(default , '杨力维' , '1995-10-20' , '女');

select * from user;

3 jar包依赖

在flink/lib目录下添加依赖：

flink-sql-connector-mysql-cdc-2.3.0.jar

下载地址：

Central Repository: com/ververica/flink-sql-connector-mysql-cdc

4 启动sql-client

# 启动服务
/opt/flink/flink-1.16.2/bin/start-cluster.sh 
# 启动sql-client
/opt/flink/flink-1.16.2/bin/sql-client.sh

设置模式

set sql-client.execution.result-mode = tableau;

设置checkpont

set execution.checkpointing.interval=30sec;

建mysql的映射表

CREATE TABLE if not exists mysql_user (
     id     STRING,
     name   STRING,
     birth  STRING,
     gender    STRING,
     PRIMARY KEY (`id`) NOT ENFORCED
) WITH (
    'connector'= 'mysql-cdc',
    'hostname'= '192.168.0.1',
    'port'= '3306',
    'username'= 'user',
    'password'='password',
    'server-time-zone'= 'Asia/Shanghai',
    'debezium.snapshot.mode'='initial',
    'database-name'= 'bigdata1',
    'table-name'= 'user'
);

执行查询语句，会生成一个flink job任务

select * from mysql_user;

5 常用参数表

参数名	必填	默认值	类型	参数描述
connector	是	无	String	指定connector，这里填 mysql-cdc
hostname	是	无	String	MySql server 的主机名或者 IP 地址
username	是	无	String	连接 MySQL 数据库的用户名
password	是	无	String	连接 MySQL 数据库的密码
database-name	是	无	String	需要监控的数据库名,支持正则表达式
table-name	是	无	String	需要监控的表名,支持正则表达式
port	是	3306	Integer	MySQL 服务的端口号
server-id	否	无	Integer	当开启scan.incremental.snapshot.enabled时，建议指定server-id;server-id 可以是单个值，如5400; 也可以提供数值范围，如5400-5408
scan.incremental.snapshot.enabled	否	TRUE	Boolean	增量快照是读取表快照的新机制；和旧的快照读相比有以下优点：1. 并行读取 2. 支持checkpoint 3. 不需要锁表；当需要并行读取时，server-id需要设置数值范围，如5400-5408
scan.incremental.snapshot.chunk.size	否	8096	Integer	表快照的块大小
scan.snapshot.fetch.size	否	1024	Integer	每次读表接受的最大值
scan.startup.mode	否	initial	String	MySQL CDC 启动模式，有效值：initial 和 latest-offset
connect.timeout	否	30s	Duration	connector 连接 MySQL 服务的最长等待超时时间
connect.max-retries	否	3	Integer	connector 创建 MySQL 连接的重试次数
connection.pool.size	否	20	Integer	连接池的大小

系列文章

Fink CDC数据同步（一）环境部署https://blog.csdn.net/weixin_44586883/article/details/136017355?spm=1001.2014.3001.5502
Fink CDC数据同步（二）MySQL数据同步https://blog.csdn.net/weixin_44586883/article/details/136017472?spm=1001.2014.3001.5501
Fink CDC数据同步（三）Flink集成Hivehttps://blog.csdn.net/weixin_44586883/article/details/136017571?spm=1001.2014.3001.5501
Fink CDC数据同步（四）Mysql数据同步到Kafkahttps://blog.csdn.net/weixin_44586883/article/details/136023747?spm=1001.2014.3001.5501
Fink CDC数据同步（五）Kafka数据同步Hivehttps://blog.csdn.net/weixin_44586883/article/details/136023837?spm=1001.2014.3001.5501