当前位置：首页 > article >正文

Paimon 是什么？Apache Paimon简介

article 2024/12/23 11:45:19

‌‌Apache Paimon是一个流式数据湖存储项目，旨在将Apache Flink的Streaming实时计算能力和Lakehouse新架构优势结合，促进数据在数据湖上的实时流动，并提供实时离线一体化的开发体验‌‌1。Paimon由Flink社区内部孵化，最初名为Flink Table Store (FTS)，于2023年3月进入Apache软件基金会（ASF）的孵化器，并改名为Apache Paimon (incubating)‌。

官方网站：Apache Paimon | Apache Paimon

功能和特点

统一批处理和流处理：Paimon 支持批量写入、批量读取，流式写入、流式更新，以及流式读取。
数据湖功能：作为数据湖存储系统，Paimon 具有低成本、高可靠性、可扩展的元数据等特性。
丰富的合并引擎：Paimon 支持按照用户喜欢的方式更新记录，包括保留最后一条记录、进行部分更新或将记录聚合在一起。
变更日志生成：Paimon 可以从任何数据源生成正确且完整的变更日志，从而简化流分析。
丰富的表类型：除了主键表，Paimon 还支持 append-only 只追加表，自动压缩小文件，并提供有序的流读取来替换消息队列。
架构：Paimon 的整体架构支持多种方式读写数据和执行 OLAP 查询。在读取层面，它可以读取 MySQL 中的数据以及消息队列中的数据。在查询层面，Paimon 除了可以和 Flink 进行交互，还可以和其他计算引擎进行交互，例如 Hive、Spark、Trino 等引擎。在底层，Paimon 会将列式文件存储在分布式文件系统中，例如 HDFS、S3，并且内部使用 LSM Tree 这种数据结构来存储数据，所以可以支持大量数据更新和高性能查询。
生态系统：Paimon 支持与 Apache Flink、Apache Hive、Apache Spark 和 Trino 等计算引擎的集成。
实时更新和海量附加数据处理：Paimon 提供了实时更新能力，支持定义合并引擎和变更日志生成器，以及处理大规模批处理和流处理的能力。