当前位置：首页 > article >正文

【Apache Paimon】-- 14 -- Spark 集成 Paimon 之 Filesystem Catalog 与 Hive Catalog 实践

article 2025/1/14 8:42:11

1. 背景介绍

2. 环境准备

2.1、技术栈说明

2.2、环境依赖

2.3、硬件与软件环境

2.4、主要工具清单

2.5、Maven 项目结构

2.6、maven pom.xml 依赖

3. Spark 与 Paimon Filesystem Catalog 集成

3.1、HDFS FileSystem catalog

3.1.1、代码内容

3.1.2、运行输出结果

3.1.2.1、Spark 运行日志

3.1.2.2、HDFS 文件目录

3.1.3、创建 hive 的 paimon 格式外部表并查询

3.2、S3 FileSystem catalog

3.2.1、代码内容

3.2.2、运行输出结果

3.2.2.1、Spark 运行日志

3.2.2.2、S3 存储目录

3.3、OSS FileSystem catalog

3.3.1、代码内容

3.3.2、运行输出结果

3.3.2.1、Spark 运行日志

3.3.2.2、OSS 存储目录

4. Spark 与 Paimon Hive Catalog 集成

4.1、代码内容

4.2、运行输出结果

4.2.1、Spark 运行日志

4.2.2、查询 Hive 表

5. 参考

1. 背景介绍

为什么选择将 Spark 与 Paimon 集成，解决什么问题？
文件系统 Catalog 和 Hive Catalog 的适用场景？

2. 环境准备

2.1、技术栈说明

Spark、Paimon 的版本选择及其兼容性说明
- Paimon 0.8、0.9 支持版本：Spark 3.1

查看全文

http://www.kler.cn/a/501940.html

C#学习笔记 --- 简单应用

Linux创建server服务器实现多方信息收发

Rank-Analysis——LOL 排位战绩查询分析器

Perl语言的网络编程

Spring Boot 支持哪些日志框架

一些计算机零碎知识随写（25年1月）-1

matlab的绘图的标题中(title)添加标量以及格式化输出

青少年编程与数学 02-006 前端开发框架VUE 17课题、组件深入

CClink IEF Basic设备数据转 EtherCAT项目案例

基于React的两种方式使用React-pdf

开关不一定是开关灯用 - 命令模式（Command Pattern）

HarMonyOS使用Tab构建页签

Megatron：深度学习中的高性能模型架构

LeetCode 977 题：有序数组的平方

Python AI教程之十八：监督学习之决策树（9) 决策树模型中的过度拟合

提升租赁效率的租赁小程序全解析

ElasticSearch在Windows环境搭建测试

springcloudalibaba集成fegin报错ClassNotFoundException解决方案

探索 C++ 与 LibUSB：开启 USB 设备交互的奇幻之旅

47_Lua文件IO操作

【计算机网络】窥探计网全貌：说说计算机网络体系结构？

AI语音机器人大模型是什么?

如何高效格式化输出 JSON 字符串

浅谈对进程的认识

Vue前端设置Cookie和鉴权问题

为什么在二维卷积操作中，将宽度（W）维度放在高度（H）之前会破坏空间局部性原则，并影响缓存性能

1. 背景介绍

2. 环境准备

2.1、技术栈说明

相关文章：