当前位置: 首页 > article >正文

doris:Azure Storage导入数据

Doris 提供两种方式从 Azure Storage 导入文件:

  • 使用 S3 Load 将 Azure Storage 文件导入到 Doris 中,这是一个异步的导入方式。
  • 使用 TVF 将 Azure Storage 文件导入到 Doris 中,这是一个同步的导入方式。

使用 S3 Load 导入​

使用 S3 Load 导入对象存储上的文件,详细步骤可以参考 Broker Load 手册

第 1 步:准备数据​

创建 CSV 文件 s3load_example.csv 文件存储在 Azure Storage 上,其内容如下:

1,Emily,25
2,Benjamin,35
3,Olivia,28
4,Alexander,60
5,Ava,17
6,William,69
7,Sophia,32
8,James,64
9,Emma,37
10,Liam,64

第 2 步:在 Doris 中创建表​

CREATE TABLE test_s3load(
    user_id            BIGINT       NOT NULL COMMENT "user id",
    name               VARCHAR(20)           COMMENT "name",
    age                INT                   COMMENT "age"
)
DUPLICATE KEY(user_id)
DISTRIBUTED BY HASH(user_id) BUCKETS 10;

第 3 步:使用 S3 Load 导入数据​

Caution

Azure Storage 默认要求 HTTPs 传输,对应的存储账户配置是 需要安全传输:已启用。 必须在 Doris be.conf 中设置 s3_client_http_scheme = https 才能正常访问 Azure Storage。

Azure S3 properties 中的 s3.region 可以省略。

LOAD LABEL s3_load_2022_04_01
(
    DATA INFILE("s3://your_bucket_name/s3load_example.csv")
    INTO TABLE test_s3load
    COLUMNS TERMINATED BY ","
    FORMAT AS "CSV"
    (user_id, name, age)
)
WITH S3
(
    "provider" = "AZURE",
    "s3.endpoint" = "StorageAccountA.blob.core.windows.net",  
    "s3.region" = "westus3",
    "s3.access_key" = "<your-ak>",
    "s3.secret_key" = "<your-sk>"
)
PROPERTIES
(
    "timeout" = "3600"
);

第 4 步:检查导入数据​

SELECT * FROM test_s3load;

结果:

mysql> select * from test_s3load;
+---------+-----------+------+
| user_id | name      | age  |
+---------+-----------+------+
|       5 | Ava       |   17 |
|      10 | Liam      |   64 |
|       7 | Sophia    |   32 |
|       9 | Emma      |   37 |
|       1 | Emily     |   25 |
|       4 | Alexander |   60 |
|       2 | Benjamin  |   35 |
|       3 | Olivia    |   28 |
|       6 | William   |   69 |
|       8 | James     |   64 |
+---------+-----------+------+
10 rows in set (0.04 sec)

使用 TVF 导入​

第 1 步:准备数据​

创建 CSV 文件 s3load_example.csv 文件存储在 Azure Storage 上,其内容如下:

1,Emily,25
2,Benjamin,35
3,Olivia,28
4,Alexander,60
5,Ava,17
6,William,69
7,Sophia,32
8,James,64
9,Emma,37
10,Liam,64

第 2 步:在 Doris 中创建表​

CREATE TABLE test_s3load(
    user_id            BIGINT       NOT NULL COMMENT "user id",
    name               VARCHAR(20)           COMMENT "name",
    age                INT                   COMMENT "age"
)
DUPLICATE KEY(user_id)
DISTRIBUTED BY HASH(user_id) BUCKETS 10;

第 3 步:使用 TVF 导入数据​

Caution

Azure Storage 默认要求 HTTPs 传输,对应的存储账户配置是 需要安全传输:已启用。 必须在 Doris be.conf 中设置 s3_client_http_scheme = https 才能正常访问 Azure Storage。

Azure S3 properties 中的 s3.region 可以省略。

INSERT INTO test_s3load
SELECT * FROM S3
(
    "uri" = "s3://your_bucket_name/s3load_example.csv",
    "format" = "csv",
    "provider" = "AZURE",
    "s3.endpoint" = "StorageAccountA.blob.core.windows.net",
    "s3.region" = "westus3",
    "s3.access_key" = "<your-ak>",
    "s3.secret_key" = "<your-sk>",
    "column_separator" = ",",
    "csv_schema" = "user_id:int;name:string;age:int"
);

第 4 步:检查导入数据​

SELECT * FROM test_s3load;

结果:

mysql> select * from test_s3load;
+---------+-----------+------+
| user_id | name      | age  |
+---------+-----------+------+
|       5 | Ava       |   17 |
|      10 | Liam      |   64 |
|       7 | Sophia    |   32 |
|       9 | Emma      |   37 |
|       1 | Emily     |   25 |
|       4 | Alexander |   60 |
|       2 | Benjamin  |   35 |
|       3 | Olivia    |   28 |
|       6 | William   |   69 |
|       8 | James     |   64 |
+---------+-----------+------+
10 rows in set (0.04 sec)


http://www.kler.cn/a/512507.html

相关文章:

  • ElasticSearch DSL查询之排序和分页
  • 在k8s中部署一个可外部访问的Redis Sentinel
  • Java高频面试之SE-15
  • JavaScript语言的多线程编程
  • Spring Boot 中使用 @Transactional 注解配置事务管理
  • Kinova仿生机械臂Gen3搭载BOTA 力矩传感器SeneOne:彰显机器人触觉 AI 与六维力传感的融合力量
  • 【Java 学习】详讲代码块:控制流语句代码块、方法代码块、实例代码块(构造代码块)、静态代码块、同步代码块
  • MacOS/C/C++下怎样进行软件性能分析(CPU/GPU/Memory)
  • 《keras 3 内卷神经网络》
  • хорошо哈拉少wordpress俄语主题
  • 【Redis】AOF持久化的实现与原理
  • Go环境搭建(vscode调试)
  • C ++ 也可以搭建Web?高性能的 C++ Web 开发框架 CPPCMS + MySQL 实现快速入门案例
  • docker 安装 nanomq
  • 深入探索Python人脸识别技术:从原理到实践
  • 202209 青少年软件编程等级考试C/C++ 二级真题答案及解析(电子学会)
  • HTML知识点复习
  • 【无法下载github文件】虚拟机下ubuntu无法拉取github文件
  • dubbo 的 spi 思想是什么?
  • [前端算法]排序算法
  • C#使用WMI获取控制面板中安装的所有程序列表
  • ChatGPT 4:解锁AI文案、绘画与视频创作新纪元
  • MySQL篇之对MySQL进行参数优化,提高MySQL性能
  • YOLOv9改进,YOLOv9检测头融合RFAConv卷积,适合目标检测、分割任务
  • YOLOv11改进,YOLOv11检测头融合DiverseBranchBlock(多样分支块),并添加小目标检测层(四头检测),适合目标检测、分割等任务
  • 国内汽车法规政策标准解读:GB 44495-2024《汽车整车信息安全技术要求》