当前位置: 首页 > article >正文

paimon使用腾讯云cosn作为仓库存储的使用方式

背景

        paimon是flink推出的高性能流式数据湖平台,我们在业务应用中选型了paimon作为数据湖的落地框架。对象存储(Cloud Object Storage,COS)是腾讯云提供的一种存储海量文件的分布式存储服务,用户可通过网络随时存储和查看数据。

        我们在大数据存储使用的是腾讯云的cosn对象存储,因此我们需要两者进行结合使用,让cosn作为paimon的存储仓库。

paimon的使用

        我们需要用java对paimon进行基本的DDL操作,例如创建数据库,创建数据表等等。根据paimon的官方要求,我们得先构建catalog。

        先引入paimon的依赖包

<dependency>
  <groupId>org.apache.paimon</groupId>
  <artifactId>paimon-bundle</artifactId>
  <version>1.1-SNAPSHOT</version>
</dependency>
<dependency>
  <groupId>org.apache.paimon</groupId>
  <artifactId>paimon-flink-common</artifactId>
  <version>1.0.0</version>
</dependency>

        paimon可以构建2种catalog,一种路径catalog只需要仓库路径,如下:

    public static Catalog createFilesystemCatalog() {
        CatalogContext context = CatalogContext.create(new Path("..."));
        return CatalogFactory.createCatalog(context);
    }

        另一种catalog,叫做hivecatalog则需要hive的信息和hdfs的信息,如下:

    public static Catalog createHiveCatalog() {
        // Paimon Hive catalog relies on Hive jars
        // You should add hive classpath or hive bundled jar.
        Options options = new Options();
        options.set("warehouse", "...");
        options.set("metastore", "hive");
        options.set("uri", "...");
        options.set("hive-conf-dir", "...");
        options.set("hadoop-conf-dir", "...");
        CatalogContext context = CatalogContext.create(options);
        return CatalogFactory.createCatalog(context);
    }

        普通存储catalog所创建的元数据信息只存在表的存储路径下,因为使用spark等一些计算引擎会找不到表,所以我们选用的是hivecatalog来创建paimon表。

 结合cosn

        我们创建hivecatalog时,catalog的warehouse使用的是cosn路径,结果出现如下错误:

        那是因为我们还没引入cosn配置。先加入cosn的依赖包,如下:

    <dependency>
      <groupId>com.qcloud.cos</groupId>
      <artifactId>hadoop-cos</artifactId>
      <version>3.1.0-8.2.4</version>
    </dependency>
    <dependency>
      <groupId>com.qcloud</groupId>
      <artifactId>cos_api</artifactId>
      <version>5.6.112</version>
    </dependency>

        再确保hivecatalog的hadoop-conf-dir参数路径下有hdfs-site.xml,core-site.xml 2个配置文件,并且配置文件根据cosn的hadoop配置 进行配置cosn的各个参数,如下:

        再进行使用便能成功创建paimon表了。

总结

        paimon创建catalog的warehouse默认走的是hdfs协议,并通过hadoop-conf-dir目录下的配置文件进行适配,配置cosn路径经过测验没有问题,其他同学有空可以试试oss,obs等。


http://www.kler.cn/a/506220.html

相关文章:

  • 阀井可燃气体监测仪,开启地下管网安全新篇章-旭华智能
  • go chan底层分析
  • 使用Go语言中的Buffer实现高性能处理字节和字符串
  • SDK调用文心一言如何接入,文心一言API接入教程
  • ESP8266固件烧录
  • Mysql--运维篇--备份和恢复(逻辑备份,mysqldump,物理备份,热备份,温备份,冷备份,二进制文件备份和恢复等)
  • C语言的数据库交互
  • SQL-leetcode—619. 只出现一次的最大数字
  • 《Keras 3 在 TPU 上的肺炎分类》
  • 无人机天文导航与卫星导航相结合方面,研究创新点与课题推荐
  • 网络安全 | 什么是CC攻击防护?
  • Redis 中 TTL 的基本知识与禁用缓存键的实现策略(Java)
  • MR30分布式IO:贴标机产线的高效扩展与控制新纪元
  • Maven依赖管理项目构建工具
  • Linux安装Docker教程(详解)
  • 设计模式03:行为型设计模式之策略模式的使用情景及其基础Demo
  • 算法库里的heap算法,仿函数和模版进阶(续)
  • 【科技赋能未来】NDT2025第三届新能源数字科技大会全面启动!
  • Wireshark 使用教程:网络分析从入门到精通
  • 微信小程序:实现单选,多选,通过变量控制单选/多选
  • 人工智能之深度学习_[2]-PyTorch入门
  • 【Flink系列】4. Flink运行时架构
  • 低代码平台:技术复杂性的系统简化
  • 安装 fairseq 失败
  • leetcode刷题记录(四十八)——128. 最长连续序列
  • 【初阶数据结构】序列系统重构:顺序表