当前位置: 首页 > article >正文

StarRocks大批量数据导入方案-使用 Kafka connector 导入数据

本文详细介绍如何使用Routine Load 导入数据

一、准备工作

1.1 安装基础环境

主要是安装StarRocks和Kafka,本文直接跳过不做详细介绍~

二、概念及原理

2.1 概念

  • 导入作业(Load job)

    导入作业会常驻运行,当导入作业的状态为 RUNNING 时,会持续不断生成一个或多个并行的导入任务,不断消费 Kafka 集群中一个 Topic 的消息,并导入至 StarRocks 中。

  • 导入任务(Load task)

    导入作业会按照一定规则拆分成若干个导入任务。导入任务是执行导入的基本单位,作为一个独立的事务,通过 Stream Load 导入机制实现。若干个导入任务并行消费一个 Topic 中不同分区的消息,并导入至 StarRocks 中。
    在这里插入图片描述

三、创建导入任务

3.1 语法

CREATE ROUTINE LOAD example_db.example_tbl1_ordertest1 ON example_tbl1
COLUMNS TERMINATED BY ",", -- 指定 CSV 数据的列分隔符,默认为\t 可不止指定
COLUMNS (order_id, pay_dt, customer_name, nationality, temp_gender, price) -- 可不指定
PROPERTIES
(
    "desired_concurrent_number" = "5" ,-- 单个 Routine Load 导入作业的期望任务并发度,表示期望一个导入作业最多被分成多少个任务并行执行。默认值为 3
    "max_batch_interval" = "5", -- 任务的调度间隔,即任务多久执行一次。单位:秒。取值范围:5~60。默认值:10。
    "format"="json", -- 源数据的格式,取值范围:CSV、JSON。默认值:CSV
    "strip_outer_array" ="true" -- 是否裁剪 JSON 数据最外层的数组结构。取值范围:TRUE 或者 FALSE。默认值:FALSE
)
FROM KAFKA
-- 项目是kafka相关配置
(
    "kafka_broker_list" = "<kafka_broker1_ip>:<kafka_broker1_port>,<kafka_broker2_ip>:<kafka_broker2_port>",
    "kafka_topic" = "ordertest1",
    "kafka_partitions" = "0,1,2,3,4",
    "property.kafka_default_offsets" = "OFFSET_BEGINNING"
);

3.2 其他重要语法

  • 查看导入作业:SHOW ROUTINE LOAD
  • 查看导入任务:SHOW ROUTINE LOAD TASK
SHOW ROUTINE LOAD TASK WHERE JobName = "example_tbl2_ordertest2"
  • 暂停导入作业:PAUSE ROUTINE LOAD
PAUSE ROUTINE LOAD FOR example_tbl2_ordertest2;
  • 恢复导入作业:RESUME ROUTINE LOAD
RESUME ROUTINE LOAD FOR example_tbl2_ordertest2;

http://www.kler.cn/news/350946.html

相关文章:

  • 戴维南,叠加,稳态笔记
  • Python小游戏8——贪吃蛇
  • 【工具】Ghidra|Ghidra 安装过程以及脚本运行方式
  • 【分立元件】电阻的额定电压和最高电压
  • 网络编程(21)——通过beast库快速实现http服务器
  • 点云标注工具开发记录(五)之点云文件加载、视角转换
  • 软考中级 - 软件设计师学习笔记 - 1.3 计算机安全
  • 自动驾驶系列—自动驾驶操作系统选型指南:如何选择最适合的系统?
  • 【openGL学习笔记】----GLFW、GLAD环境配置
  • 【中医揭秘】烦躁不安的根源与调养秘籍,让你重获内心宁静
  • SSL: CERTIFICATE_VERIFY_FAILED解决方法
  • 以下是为升级到 Spring Boot 3 制定测试计划
  • 「从零开始的 Vue 3 系列」:第十三章——架构一个Vue项目(简单版)
  • 2024 年江西省职业院校技能大赛应用软件系统开发赛项竞赛规程(高职组)
  • 网络安全知识核心20要点
  • 论文速读:通过目标感知双分支蒸馏进行跨域目标检测(CVPR2022)
  • 在Openshift(K8S)上通过EMQX Operator部署Emqx集群
  • 【微信小程序_16_上拉触底相关功能补充】
  • Github优质项目推荐(第八期)
  • 进行SEDEX认证需要准备哪些资料?
  • 制造已然走出国门,数据如何走向全球?
  • 元器件行业常用软件推荐-加速度JSUDO
  • Android12 Settings系列(一)二级设置界面中自定义Fragment使用一级菜单中的图标显示异常
  • 《语音识别方案选型研究》
  • BPMN-Moddle模型校验指南
  • 【秋招笔试-支持在线评测】10.12百度(A卷)秋招(已改编)-三语言题解