当前位置: 首页 > article >正文

doris:阿里云 DLF

阿里云 Data Lake Formation(DLF) 是阿里云上的统一元数据管理服务。兼容 Hive Metastore 协议。

什么是 Data Lake Formation

因此我们也可以和访问 Hive Metastore 一样,连接并访问 DLF。

连接 DLF​

创建 DLF Catalog​

CREATE CATALOG dlf PROPERTIES (
   "type"="hms",
   "hive.metastore.type" = "dlf",
   "dlf.proxy.mode" = "DLF_ONLY",
   "dlf.endpoint" = "datalake-vpc.cn-beijing.aliyuncs.com",
   "dlf.region" = "cn-beijing",
   "dlf.uid" = "uid",
   "dlf.catalog.id" = "catalog_id", //可选
   "dlf.access_key" = "ak",
   "dlf.secret_key" = "sk"
);

其中 type 固定为 hms。如果需要公网访问阿里云对象存储的数据,可以设置 "dlf.access.public"="true"

  • dlf.endpoint:DLF Endpoint,参阅:DLF Region 和 Endpoint 对照表
  • dlf.region:DLF Region,参阅:DLF Region 和 Endpoint 对照表
  • dlf.uid:阿里云账号。即阿里云控制台右上角个人信息的“云账号 ID”。
  • dlf.catalog.id(可选):Catalog Id。用于指定数据目录,如果不填,使用默认的 Catalog ID。
  • dlf.access_key:AccessKey。可以在 阿里云控制台 中创建和管理。
  • dlf.secret_key:SecretKey。可以在 阿里云控制台 中创建和管理。

其他配置项为固定值,无需改动。

之后,可以像正常的 Hive MetaStore 一样,访问 DLF 下的元数据。

同 Hive Catalog 一样,支持访问 DLF 中的 Hive/Iceberg/Hudi 的元数据信息。

使用开启了 HDFS 服务的 OSS 存储数据​

  1. 确认 OSS 开启了 HDFS 服务。开通并授权访问 OSS-HDFS 服务。

  2. 下载 SDK。JindoData SDK 下载。如果集群上已有 SDK 目录,忽略这一步。

  3. 解压下载后的 jindosdk.tar.gz 或者在集群上找到 Jindo SDK 的目录,将其 lib 目录下的jindo-core.jar、jindo-sdk.jar放到${DORIS_HOME}/fe/lib${DORIS_HOME}/be/lib/java_extensions/preload-extensions目录下。

  4. 创建 DLF Catalog,并配置oss.hdfs.enabledtrue

    CREATE CATALOG dlf_oss_hdfs PROPERTIES (
       "type"="hms",
       "hive.metastore.type" = "dlf",
       "dlf.proxy.mode" = "DLF_ONLY",
       "dlf.endpoint" = "datalake-vpc.cn-beijing.aliyuncs.com",
       "dlf.region" = "cn-beijing",
       "dlf.uid" = "uid",
       "dlf.catalog.id" = "catalog_id", //可选
       "dlf.access_key" = "ak",
       "dlf.secret_key" = "sk",
       "oss.hdfs.enabled" = "true"
    );
    

  5. 当 Jindo SDK 版本与 EMR 集群上所用的版本不一致时,会出现Plugin not found的问题,需更换到对应版本。

访问 DLF Iceberg 表​

CREATE CATALOG dlf_iceberg PROPERTIES (
   "type"="iceberg",
   "iceberg.catalog.type" = "dlf",
   "dlf.proxy.mode" = "DLF_ONLY",
   "dlf.endpoint" = "datalake-vpc.cn-beijing.aliyuncs.com",
   "dlf.region" = "cn-beijing",
   "dlf.uid" = "uid",
   "dlf.catalog.id" = "catalog_id", //可选
   "dlf.access_key" = "ak",
   "dlf.secret_key" = "sk"
);

列类型映射​

和 Hive Catalog 一致,可参阅 Hive Catalog 中 列类型映射 一节。


http://www.kler.cn/a/570495.html

相关文章:

  • PyTorch 中使用多进程实现增量训练
  • 使用cursor ai 开发 UniApp JSON 工具开发文档
  • 第十四届蓝桥杯:(二分算法)字串简写
  • 【MySQL】CAST()在MySQL中的用法以及其他常用的数据类型转换函数
  • 【部署】Docker Compose 指令备忘清单(超级详细!)
  • docker拉取乌班图并且ssh连接
  • C++小课堂——变量的声明,赋值和初始化
  • Redis是什么?如何使用Redis进行缓存操作?
  • Powershell和BTEQ工具实现带多组参数和标签的Teradata数据库批量数据导出程序
  • 深度学习-13.深度强化学习:深度 Q 学习
  • 【网络编程】之TCP通信步骤
  • 基础篇——深入解析SQL多表操作与关联查询:构建复杂数据关系的桥梁
  • 《解锁HarmonyOS NEXT高阶玩法:艺术图像识别功能开发全攻略》
  • Nginx将tomcat项目转发。将非80/443端口口转为80或443及https
  • halcon学习笔记1
  • Centos7部署k8s(单master节点安装)
  • 硅基流动前端如何设置tool工具
  • LINUX网络基础 - 网络编程套接字,UDP与TCP
  • 27、Java 反射机制
  • 数据结构(初阶)(五)----栈