当前位置: 首页 > article >正文

doris:导入概览

Apache Doris 提供了多种导入和集成数据的方法,您可以使用合适的导入方式从各种源将数据导入到数据库中。Apache Doris 提供的数据导入方式可以分为四类:

  • 实时写入:应用程序通过 HTTP 或者 JDBC 实时写入数据到 Doris 表中,适用于需要实时分析和查询的场景。

    • 极少量数据(5 分钟一次)时可以使用 JDBC INSERT 写入数据。

    • 并发较高或者频次较高(大于 20 并发或者 1 分钟写入多次)时建议打开 Group Commit,使用 JDBC INSERT 或者 Stream Load 写入数据。

    • 吞吐较高时推荐使用 Stream Load 通过 HTTP 写入数据。

  • 流式同步:通过实时数据流(如 Flink、Kafka、事务数据库)将数据实时导入到 Doris 表中,适用于需要实时分析和查询的场景。

    • 可以使用 Flink Doris Connector 将 Flink 的实时数据流写入到 Doris 表中。

    • 可以使用 Routine Load 或者 Doris Kafka Connector 将 Kafka 的实时数据流写入到 Doris 表中。Routine Load 方式下,Doris 会调度任务将 Kafka 中的数据拉取并写入 Doris 中,目前支持 csv 和 json 格式的数据。Kafka Connector 方式下,由 Kafka 将数据写入到 Doris 中,支持 avro、json、csv、protobuf 格式的数据。

    • 可以使用 Flink CDC 或 Datax 将事务数据库的 CDC 数据流写入到 Doris 中。

  • 批量导入:将数据从外部存储系统(如对象存储、HDFS、本地文件、NAS)批量加载到 Doris 表中,适用于非实时数据导入的需求。

    • 可以使用 Broker Load 将对象存储和 HDFS 中的文件写入到 Doris 中。

    • 可以使用 INSERT INTO SELECT 将对象存储、HDFS 和 NAS 中的文件同步写入到 Doris 中,配合 JOB 可以异步写入。

    • 可以使用 Stream Load 或者 Doris Streamloader 将本地文件写入 Doris 中。

  • 外部数据源集成:通过与外部数据源(如 Hive、JDBC、Iceberg 等)的集成,实现对外部数据的查询和部分数据导入到 Doris 表中。

    • 可以创建 Catalog 读取外部数据源中的数据,使用 INSERT INTO SELECT 将外部数据源中的数据同步写入到 Doris 中,配合 JOB 可以异步写入。

    • 可以使用 X2Doris 将其他 AP 系统的数据迁移到 Doris 中。

Doris 的每个导入默认都是一个隐式事务,事务相关的更多信息请参考事务。

导入方式快速浏览​

Doris 的导入主要涉及数据源、数据格式、导入方式、错误数据处理、数据转换、事务多个方面。您可以在如下表格中快速浏览各导入方式适合的场景和支持的文件格式。

导入方式使用场景支持的文件格式导入模式
Stream Load导入本地文件或者应用程序写入csv、json、parquet、orc同步
Broker Load从对象存储、HDFS等导入csv、json、parquet、orc异步
INSERT INTO VALUES通过JDBC等接口导入SQL同步
INSERT INTO SELECT可以导入外部表或者对象存储、HDFS中的文件SQL同步
Routine Load从kakfa实时导入csv、json异步
MySQL Load从本地数据导入csv同步
Group Commit高频小批量导入根据使用的导入方式而定

http://www.kler.cn/a/508507.html

相关文章:

  • 【postgres】sqlite格式如何导入postgres数据库
  • 洛谷P3916 图的遍历
  • 关于AWS网络架构的思考
  • 深入理解 D3.js 力导向图:原理、调参与应用
  • redis实现限流
  • mac配置 iTerm2 使用lrzsz与服务器传输文件
  • 【大数据】机器学习----------集成学习
  • mysql之联合索引
  • 【数据分析与可视化】Python绘制数据地图-GeoPandas地图可视化
  • 【STM32-学习笔记-10-】BKP备份寄存器+时间戳
  • 【自然语言处理】BERT系列模型-详解
  • 使用 electron-builder 构建一个 Electron 应用程序 常见问题以及解决办法
  • 东芝e-STUDIO2829A复印机提示“维护”该如何操作
  • js实现数据结构
  • 掌握Linux系统优化的技巧:提升服务器性能的指南
  • 模之屋模型导入到UE5
  • XML、HTML 和 JSON 的区别与联系
  • React第二十二章(useDebugValue)
  • TikTok专线服务器助力品牌营销新高度
  • Level2逐笔成交逐笔委托毫秒记录:今日分享优质股票数据20250117
  • magic-dash:纯Python轻松开发网页应用
  • 使用 Vue.js 3 开发动态模块化组件:实现插件式表单系统
  • python实现webrtc通过whep拉取实时音频流
  • [leetcode](适合有一定基础需要刷题的宝宝)map STL的增删查改
  • 怎么修复损坏的U盘?而且不用格式化的方式!
  • (一)相机标定——四大坐标系的介绍、对应转换、畸变原理以及OpenCV完整代码实战(C++版)