当前位置: 首页 > article >正文

Paimon 是什么?Apache Paimon简介

‌Apache Paimon是一个流式数据湖存储项目,旨在将Apache Flink的Streaming实时计算能力和Lakehouse新架构优势结合,促进数据在数据湖上的实时流动,并提供实时离线一体化的开发体验‌‌1。Paimon由Flink社区内部孵化,最初名为Flink Table Store (FTS),于2023年3月进入​​​​​​​Apache软件基金会(ASF)的孵化器,并改名为Apache Paimon (incubating)‌。

官方网站:Apache Paimon | Apache Paimon

功能和特点

  1. 统一批处理和流处理:Paimon 支持批量写入、批量读取,流式写入、流式更新,以及流式读取。

  2. 数据湖功能:作为数据湖存储系统,Paimon 具有低成本、高可靠性、可扩展的元数据等特性。

  3. 丰富的合并引擎:Paimon 支持按照用户喜欢的方式更新记录,包括保留最后一条记录、进行部分更新或将记录聚合在一起。

  4. 变更日志生成:Paimon 可以从任何数据源生成正确且完整的变更日志,从而简化流分析。

  5. 丰富的表类型:除了主键表,Paimon 还支持 append-only 只追加表,自动压缩小文件,并提供有序的流读取来替换消息队列。

  6. 架构:Paimon 的整体架构支持多种方式读写数据和执行 OLAP 查询。在读取层面,它可以读取 MySQL 中的数据以及消息队列中的数据。在查询层面,Paimon 除了可以和 Flink 进行交互,还可以和其他计算引擎进行交互,例如 Hive、Spark、Trino 等引擎。在底层,Paimon 会将列式文件存储在分布式文件系统中,例如 HDFS、S3,并且内部使用 LSM Tree 这种数据结构来存储数据,所以可以支持大量数据更新和高性能查询。

  7. 生态系统:Paimon 支持与 Apache Flink、Apache Hive、Apache Spark 和 Trino 等计算引擎的集成。

  8. 实时更新和海量附加数据处理:Paimon 提供了实时更新能力,支持定义合并引擎和变更日志生成器,以及处理大规模批处理和流处理的能力。

适用场景

Paimon适用于需要在流数据进行实时查询和分析的场景,如金融、电子商务、物联网等领域。它能够帮助用户构建高效的流式数据湖,实现高吞吐、低延迟的数据处理和实时查询能力‌。


http://www.kler.cn/a/447850.html

相关文章:

  • 2023年厦门市第30届小学生C++信息学竞赛复赛上机操作题(三、2023C. 太空旅行(travel))
  • 读书笔记~管理修炼-缄默效应
  • Vue CLI 脚手架创建项目流程详解 (2)
  • webGL硬核知识:图形渲染管渲染流程,各个阶段对应的API调用方式
  • 【Lua热更新】上篇
  • ES搜索原理
  • 项目2路由交换
  • 米思齐图形化编程之ESP32开发指导
  • PostgreSQL表达式的类型
  • 晶闸管-直流电动机调速系统设计【MATLAB源码+Word文档】
  • 【系统移植】NFS服务器环境搭建——挂载根文件系统
  • Linux网络——网络套接字
  • java小知识点:比较器
  • 使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
  • 机器学习(四)-回归模型评估指标
  • 【LeetCode】906、超级回文数
  • vue入门教程:组件透传 Attributes
  • c++领域展开第四幕——类和对象(上篇收尾 this指针、c++和c语言的初步对比)超详细!!!!
  • 如何使用PSQL Tool还原pg数据库(sql格式)
  • Kubernetes网络管理
  • 示波器--UNI-T 优利德 UT4102C 使用介绍
  • 前端面试:项目细节重难点问题分享(19)
  • 一步一步写线程之十六线程的安全退出之二例程
  • 2024年12月的《数据资产管理实践指南(7.0版)》解析
  • 使用Python构建个性化学习管理系统
  • javaEE-线程的常用方法-4