当前位置：首页 > article >正文

HUDI-0.11.0 BUCKET index on Flink 特性试用

article 2025/1/21 6:11:01

1. 背景

在 0.10.1 版本下，使用默认的 index(FLINK_STATE)，在 upsert 模式下，几十亿级别的数据更新会消耗大量内存，并且检查点（checkpoint）时间过长。因此，切换到 0.11.0 的 BUCKET 索引。

当前环境：Flink 1.13.2 + Hudi 0.11.0（master 2022.04.11） + COW + HDFS。

关键配置项：

index.type = BUCKET
hoodie.bucket.index.num.buckets = 256

关键词

Hudi
COW
Flink
BUCKET
FLINK_STATE

2. BUCKET 与 FLINK_STATE 的区别

FLINK_STATE

描述：Hudi 的 upsert 模式需要指定主键组，更新时按照主键进行更新。数据存储在 HDFS 文件上，因此需要维护主键与文件名的映射关系。Flink 的 state 用于存储这些映射关系。
特点：
- 第一次加载 Hudi 表的历史数据时，需要设置 index.bootstrap.enabled = true 来加载历史数据到 state 中。
- 支持跨分区更新。
缺点：
- 占用大量内存。
- 初始化加载历史数据较慢。

BUCKET

描述：基于文件的分桶机制。例如，设置主键为 id，桶个数为 256，则计算桶序号的方法为 (id.hashCode() & Integer.MAX_VALUE) % 256。
特点：
- 桶的个数一旦设置，不能更改。
- 文件个数固定，单个文件大小会随着数据量增加而增大。
- 优点：不占用 Flink 的 Managed Memory。
- 缺点：文件 IO 操作会增加 CPU 压力。
- 不支持跨分区更新。
建议：
- 预估数据量，设置合理的桶数量，避免小文件或写放大问题。
- 可以通过离线导数据观察 HDFS 文件大小来预估桶数量。

总结

FLINK_STATE：占用内存，初始化加载历史数据慢，支持跨分区。
BUCKET：占用磁盘，不支持跨分区，节省内存。

3. 相关配置

Flink 实时流配置

'connector' = 'hudi',
'path' = 'hdfs://path/',
'index.type' = 'BUCKET',                 -- bucket索引
'hoodie.parquet.compression.codec'= 'snappy',
'table.type' = 'COPY_ON_WRITE',
'write.operation' = 'upsert', 
'write.task.max.size' = '2048', 
'write.precombine' = 'true',
'write.precombine.field' = 'update_time',
'write.tasks' = '6',
'write.bucket_assign.tasks' = '6',
'hoodie.bucket.index.hash.field' = 'id',         -- 主键
'hoodie.bucket.index.num.buckets' = '256',  -- 桶个数
'hive_sync.enable'='true',
'hive_sync.table'='TABLE_NAME',
'hive_sync.db'='DB_NAME',
'hive_sync.mode' = 'hms',
'hive_sync.metastore.uris' = 'thrift://HOST:9083',
'hive_sync.skip_ro_suffix' = 'true',
'write.insert.cluster' = 'true',
'write.ignore.failed' = 'true',
'clean.async.enabled' = 'true',
'clean.retain_commits' = '3', 
'hoodie.cleaner.commits.retained' = '3',
'hoodie.keep.min.commits' = '4', 
'hoodie.keep.max.commits' = '8'

Flink 离线导入数据配置

'connector' = 'hudi',
'path' = 'hdfs://PATH',
'hoodie.parquet.compression.codec'= 'snappy',
'index.type' = 'BUCKET',
'table.type' = 'COPY_ON_WRITE',
'write.operation' = 'bulk_insert', 
'write.tasks' = '2', 
'hoodie.bucket.index.num.buckets' = '256', 
'hoodie.bucket.index.hash.field' = 'id'

离线导入完成后

观察 HDFS 文件，前八位为数字（例如 00000000-, 00000255-），即表示设置成功。
然后可直接接入实时数据。

注意

从 Hive 导数据到 Hudi 时，可以调整 Hive Source 的并行度：

tableConfig.setInteger(HiveOptions.TABLE_EXEC_HIVE_INFER_SOURCE_PARALLELISM_MAX, source_parallelism_max)

4. 性能小结

实时情况

基于当前数据量，单文件（80M）操作在 100ms 左右。例如：block read in memory in 171 ms. row count = 617384。
十几张表每次检查点（checkpoint）耗时约三四分钟，对于十几分钟的检查点间隔来说可以接受。

离线导数据情况

对于亿级别数据的离线导入，资源消耗不大，十几分钟即可完成。

注意事项

如果检查点设置过小，COW 表频繁操作 bucket 文件，会对集群 CPU 负载产生压力。

查看全文

http://www.kler.cn/a/511700.html

HTML＜center＞标签

Reactor 模式在 Edis、Nginx 和 Netty 中的应用与高性能网络模式解析

计算机网络 | IP地址、子网掩码、网络地址、主机地址计算方式详解

【大数据】机器学习------支持向量机（SVM)

【蜂巢——方向，数学】

【转】厚植根基，同启新程！一文回顾 2024 OpenHarmony 社区年度工作会议精彩瞬间

C语言数组与字符串操作全解析：从基础到进阶，深入掌握数组和字符串处理技巧

数智化转型 | 星环科技Defensor 助力某银行数据分类分级

在k8s中部署一个可外部访问的Redis Sentinel

Pix2Pix ：用于图像到图像转换的条件生成对抗网络

第八篇：监视`ref`定义的【基本类型】数据

qt for android 报错解决记录

嵌入式Linux驱动开发之platform

深度学习学习笔记（第30周）

C语言之斗地主游戏

简述1个业务过程：从客户端调用接口，再到调用中间件（nacos、redis、kafka、feign），数据库的过程

【HarmonyOS NAPI 深度探索11】搭建 NAPI 开发环境：HarmonyOS DevEco Studio 全指南

PortSwigger NoSQL 注入

mybatis保存数据库类型为json类型数据报错

JAVA使用自定义注解，在项目中实现EXCEL文件的导出

微服务学习：基础理论

【STM32-学习笔记-11-】RTC实时时钟

SpringCloud+Vue+Python人工智能（fastAPI,机器学习,深度学习）前后端架构各功能实现思路——主目录（持续更新）

【机器学习实战入门项目】使用深度学习创建您自己的表情符号

Selenium工具使用Python 语言实现下拉框定位操作

深入了解JSON：Python中JSON的全面应用指南