当前位置: 首页 > article >正文

大数据基础:离线与实时数仓区别和建设思路

文章目录

离线与实时数仓区别和建设思路

一、离线数仓与实时数仓区别

​​​​​​​二、实时数仓建设思路


离线与实时数仓区别和建设思路

​​​​​​​一、离线数仓与实时数仓区别

离线数据与实时数仓区别如下:

对比方面

离线数仓

实时数仓

架构选择

传统大数据架构

Kappa架构

建设方法

传统数仓主题建模理论

传统数仓主题建模理论

准确性

准确度高

准确度随着技术发展,准确度高

实时性

T+1

分钟级别、秒级别

稳定性

稳定性好,方便重算

对数据敏感稳定性差,需要考虑数据重新计算

数据存储

HDFS/Hive

Kafka/HBase/Redis/Druid

吞吐量

较高

​​​​​​​二、实时数仓建设思路

在实时数仓中计算框架选型建议优先选择Flink,其具有“流批一体”特性,并且在处理复杂业务场景上性能优异,在实时处理中有逐渐替代spark的趋势。

实时数仓分层方面,实时数仓可采用离线数仓的数据模型进行分层处理,目前建议选择Kafka,实时数仓的数据来源可以为kafka消息队列,这样可以做到队列中的数据既可以写入HDFS用于批量分析,也可以实时处理,下游可以写入数据集市供业务使用。如果实时数据量不大也可以将实时明细层写入ClickHouse、Druid等查询效率高的存储方便下游使用,轻度汇总层对数据进行汇总分析后供下游使用。

数据存储选型中首要考虑查询效率,其次是插入、更新等问题,这里说的存储时最终计算数据结果的存储,可选择ClickHouse、Hbase、apache Druid、Redis等,频繁更新的数据建议不要采用ClickHouse与Druid。当然存储这块需要具体问题具体分析,不同场景下hbase、redis等都是可选项。


  • 📢博客主页:https://lansonli.blog.csdn.net

  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!

  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉

  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨ 


http://www.kler.cn/a/286626.html

相关文章:

  • 【攻防世界新手入门】simple_js
  • 弹性资源组件集成系列(二)elastic-job集成弹性资源设计解释
  • Linux高级编程-进程间通信(IPC)
  • 无线通信-WIFI通信
  • Linux 软件包管理器 yum
  • Android Framework(三)Activity启动流程
  • npm包不满足需求的时候怎么办
  • AWTK fscript 中的位操作扩展函数
  • 智能化Web3:如何利用人工智能优化区块链技术
  • 利润率问题【简单】
  • Java后端 - 常见BUG及其处理策略(持续更新中~)
  • unity面试:什么叫做链条关节?
  • Chrome 浏览器:现代网络浏览的先锋
  • How to run a JAR file
  • SpringBoot 引入使用消息队列RabbitMQ通信 配置连接 无路由模式
  • STM32 使用8720 通过LWIP发送数据
  • k8s helm
  • 【MySQL】字节跳动MySQL连环40问(网图)
  • WHAT - 通过 react-use 源码学习 React(UI 篇)
  • LabVIEW布尔值比较与信号状态上升沿下降沿检测