当前位置: 首页 > article >正文

HUDI-0.11.0 BUCKET index on Flink 特性试用

1. 背景

在 0.10.1 版本下,使用默认的 index(FLINK_STATE),在 upsert 模式下,几十亿级别的数据更新会消耗大量内存,并且检查点(checkpoint)时间过长。因此,切换到 0.11.0 的 BUCKET 索引。

当前环境:Flink 1.13.2 + Hudi 0.11.0(master 2022.04.11) + COW + HDFS

关键配置项:

  • index.type = BUCKET
  • hoodie.bucket.index.num.buckets = 256

关键词

  • Hudi
  • COW
  • Flink
  • BUCKET
  • FLINK_STATE

2. BUCKET 与 FLINK_STATE 的区别

FLINK_STATE

  • 描述:Hudi 的 upsert 模式需要指定主键组,更新时按照主键进行更新。数据存储在 HDFS 文件上,因此需要维护主键与文件名的映射关系。Flink 的 state 用于存储这些映射关系。
  • 特点
    • 第一次加载 Hudi 表的历史数据时,需要设置 index.bootstrap.enabled = true 来加载历史数据到 state 中。
    • 支持跨分区更新。
  • 缺点
    • 占用大量内存。
    • 初始化加载历史数据较慢。

BUCKET

  • 描述:基于文件的分桶机制。例如,设置主键为 id,桶个数为 256,则计算桶序号的方法为 (id.hashCode() & Integer.MAX_VALUE) % 256
  • 特点
    • 桶的个数一旦设置,不能更改。
    • 文件个数固定,单个文件大小会随着数据量增加而增大。
    • 优点:不占用 Flink 的 Managed Memory
    • 缺点:文件 IO 操作会增加 CPU 压力。
    • 不支持跨分区更新
  • 建议
    • 预估数据量,设置合理的桶数量,避免小文件或写放大问题。
    • 可以通过离线导数据观察 HDFS 文件大小来预估桶数量。

总结

  • FLINK_STATE:占用内存,初始化加载历史数据慢,支持跨分区。
  • BUCKET:占用磁盘,不支持跨分区,节省内存。

3. 相关配置

Flink 实时流配置

'connector' = 'hudi',
'path' = 'hdfs://path/',
'index.type' = 'BUCKET',                 -- bucket索引
'hoodie.parquet.compression.codec'= 'snappy',
'table.type' = 'COPY_ON_WRITE',
'write.operation' = 'upsert', 
'write.task.max.size' = '2048', 
'write.precombine' = 'true',
'write.precombine.field' = 'update_time',
'write.tasks' = '6',
'write.bucket_assign.tasks' = '6',
'hoodie.bucket.index.hash.field' = 'id',         -- 主键
'hoodie.bucket.index.num.buckets' = '256',  -- 桶个数
'hive_sync.enable'='true',
'hive_sync.table'='TABLE_NAME',
'hive_sync.db'='DB_NAME',
'hive_sync.mode' = 'hms',
'hive_sync.metastore.uris' = 'thrift://HOST:9083',
'hive_sync.skip_ro_suffix' = 'true',
'write.insert.cluster' = 'true',
'write.ignore.failed' = 'true',
'clean.async.enabled' = 'true',
'clean.retain_commits' = '3', 
'hoodie.cleaner.commits.retained' = '3',
'hoodie.keep.min.commits' = '4', 
'hoodie.keep.max.commits' = '8'

Flink 离线导入数据配置

'connector' = 'hudi',
'path' = 'hdfs://PATH',
'hoodie.parquet.compression.codec'= 'snappy',
'index.type' = 'BUCKET',
'table.type' = 'COPY_ON_WRITE',
'write.operation' = 'bulk_insert', 
'write.tasks' = '2', 
'hoodie.bucket.index.num.buckets' = '256', 
'hoodie.bucket.index.hash.field' = 'id'

离线导入完成后

  • 观察 HDFS 文件,前八位为数字(例如 00000000-, 00000255-),即表示设置成功。
  • 然后可直接接入实时数据。

注意

  • 从 Hive 导数据到 Hudi 时,可以调整 Hive Source 的并行度:
    tableConfig.setInteger(HiveOptions.TABLE_EXEC_HIVE_INFER_SOURCE_PARALLELISM_MAX, source_parallelism_max)
    

4. 性能小结

实时情况

  • 基于当前数据量,单文件(80M)操作在 100ms 左右。例如:block read in memory in 171 ms. row count = 617384
  • 十几张表每次检查点(checkpoint)耗时约三四分钟,对于十几分钟的检查点间隔来说可以接受。

离线导数据情况

  • 对于亿级别数据的离线导入,资源消耗不大,十几分钟即可完成。

注意事项

  • 如果检查点设置过小,COW 表频繁操作 bucket 文件,会对集群 CPU 负载产生压力。

http://www.kler.cn/a/511700.html

相关文章:

  • HTML<center>标签
  • Reactor 模式在 Edis、Nginx 和 Netty 中的应用与高性能网络模式解析
  • 计算机网络 | IP地址、子网掩码、网络地址、主机地址计算方式详解
  • 【大数据】机器学习------支持向量机(SVM)
  • 【蜂巢——方向,数学】
  • 【转】厚植根基,同启新程!一文回顾 2024 OpenHarmony 社区年度工作会议精彩瞬间
  • C语言数组与字符串操作全解析:从基础到进阶,深入掌握数组和字符串处理技巧
  • 数智化转型 | 星环科技Defensor 助力某银行数据分类分级
  • 在k8s中部署一个可外部访问的Redis Sentinel
  • Pix2Pix :用于图像到图像转换的条件生成对抗网络
  • 第八篇:监视`ref`定义的【基本类型】数据
  • qt for android 报错解决记录
  • 嵌入式Linux驱动开发之platform
  • 深度学习学习笔记(第30周)
  • C语言之斗地主游戏
  • 简述1个业务过程:从客户端调用接口,再到调用中间件(nacos、redis、kafka、feign),数据库的过程
  • 【HarmonyOS NAPI 深度探索11】搭建 NAPI 开发环境:HarmonyOS DevEco Studio 全指南
  • PortSwigger NoSQL 注入
  • mybatis保存数据库类型为json类型数据报错
  • JAVA使用自定义注解,在项目中实现EXCEL文件的导出
  • 微服务学习:基础理论
  • 【STM32-学习笔记-11-】RTC实时时钟
  • SpringCloud+Vue+Python人工智能(fastAPI,机器学习,深度学习)前后端架构各功能实现思路——主目录(持续更新)
  • 【机器学习实战入门项目】使用深度学习创建您自己的表情符号
  • Selenium工具使用Python 语言实现下拉框定位操作
  • 深入了解JSON:Python中JSON的全面应用指南