当前位置: 首页 > article >正文

Paimon_01_241020

1. 概述

1.1. 核心特点

  1. 统一批处理和流处理(流和批同一套代码)
  2. 数据湖能力
  3. 多种引擎平权
  4. 变更日志生成
  5. 丰富的表类型(主键表、append-only,有序的流式读取来代替消息队列)
  6. 模式演化(schema变更)

1.2. 组件

  • Paimon 0.5 SNAPSHOT
  • Flink 1.17.0
  • Hive 3.1.3
  • Spark 3.3.1

img

1.3. 基本概念

  • Snapshot。可以通过最新快照来访问最新数据。
  • Partition。分文件夹,可选。如果定义了主键,分区键必须是主键的子集。
  • Bucket。未分区表或分区表被细分为存储桶。桶是读写的最小存储单元,因此桶的数量限制了最大处理并行度(太大会导致大量小文件和低读取性能)。建议每个桶大小为1GB左右。
  • 一致性保证。任意两个同时修改表的Writer,只要不修改同一个桶,他们的提交都是可序列化;如果修改同一个桶,则仅保证快照隔离,也就是最终状态可能是两次提交的混合,但不会丢失任何更改。

1.4. 文件布局

img

2. 集成Flink

2.1. 环境准备

img

2.1.1. 先安装flink

img

2.1.2. 再上传paimon的jar包到flink的lib目录下

img

2.1.3. 启动Hadoop
2.1.4. 启动flink sql-client img

2.2. Catalog

Paimon Catalog可以持久化元数据,支持两种类型的metastore

  • 文件系统(默认)
  • hive metastore
2.2.1. 文件系统

img

2.2.2. Hive Catalog

2.3. DDL

2.3.1. 建管理表

在paimon catalog中创建的表就是管理表,由catalog管理。当表从catalog中删除时文件也被删除,相当于是hive的内部表。

  1. 建表

内部表不需要指定connector。

略。

  1. 建分区表

注意主键子段必须是分区字段的子集。

略。

  1. CREATE TABLE AS(CTAS)(Flink支持)

img

img

2.3.2. 建外部表

外部表由Catalog记录但不管理。删除外部表,其表文件不会被删除。

注意:不能在Paimon Catalog下执行以下语句,要在fs_catalog下执行

img

2.3.3. 建临时表

仅Flink支持临时表。与外部表一样,临时表只是记录,但不由当前Flink SQL会话管理,临时表不持久化。与外部表的区别在于,临时表在Paimon Catalog中创建。

如果像将Paimon Catalog与其他表一起使用,但不想将他们存储在其他Catalog中,可以创建临时表。

img

2.3.4. 修改表

img

2.3.5. 修改列

img

img

2.3.6. 修改水印

img

todo:今天学到13

lookup join维表join

img

img

img


http://www.kler.cn/a/460279.html

相关文章:

  • df.replace({‘b‘: r‘\s*(\.)\s*‘}, {‘b‘: r‘\1ty‘}, regex=True)
  • LoRA微调系列笔记
  • 试题转excel;word转excel;大风车excel(1.1更新)
  • Spring Boot 中的 classpath详解
  • 第十四届蓝桥杯Scratch省赛中级组—智能计价器
  • HTML——57. type和name属性
  • 前端超大缓存IndexDB、入门及实际使用
  • win10 重装系统中 或 电脑恢复重置中的 优化步骤
  • 寄存器总结
  • 开发小工具:ping地址
  • django StreamingHttpResponse fetchEventSource实现前后端流试返回数据并接收数据的完整详细过程
  • PHP框架+gatewayworker实现在线1对1聊天--mysql数据库(3)
  • Spring boot + Hibernate + MySQL实现用户管理示例
  • logback之自定义过滤器
  • 【AndroidAPP】权限被拒绝:[android.permission.READ_EXTERNAL_STORAGE],USB设备访问权限系统报错
  • C语言一维数组与指针运算
  • 《计算机组成及汇编语言原理》阅读笔记:p133-p159
  • WPF的下拉复选框多选,数据来源数据库的表
  • 【人工智能机器学习基础篇】——深入详解深度学习之神经网络基础:理解前馈神经网络与反向传播算法
  • 医疗数仓配置Flume
  • 使用maven-mvnd替换maven大大提升编译打包速度
  • sublime 文件高亮设置
  • vim编辑器实用设置
  • VirtualBox新版本报错 Invalid installation directory解决方案
  • C#封送类
  • Tesseract-OCR 文字识别