当前位置: 首页 > article >正文

【大数据面试题】 018 数据仓库的分层了解吗?说说你的理解

一步一个脚印,一天一道面试题。

数据仓库是比较常见的考点。今天就介绍一下数据仓库的分层。本篇文章会较多的图片是来自尚硅谷的。

数据仓库的背景和好处

数据仓库的诞生就和大数据的诞生有很大的相似。大数据的诞生是为了处理超大的数据,并在其中探索海量数据下的价值。而数据仓库的诞生是为了规范大数据初期蛮荒生长后的一套规范(毕竟瞎搞大数据很浪费钱),有了数据仓库,我们能更有效率的在海量数据里找黄金,同时能避免不必要的浪费,减少成本。数据仓库再往后,我认为就是数据治理,但那就是后话了。

数仓分层

来张尚硅谷的数仓分层图先:
数仓总体分层

源数据层(ODS)

在这一层,通常存储原始数据,如日志、埋点数据等。这些数据往往包含了系统的全部操作记录,便于后续对数据进行追溯和分析。
ODS

数据明细层(DWD)

DWD 层通常存储经过清洗和分类的数据,包括统一单位、去除空值等处理后的数据。这一层的数据更加规范和准确,适合用于后续的计算和分析。

DWD数据明细层

维度层(DIM)- 配置和信息表

维度层一般存储与业务相关的配置信息和维度表,用于描述业务实体的属性和特征。例如产品信息、客户信息、地理位置等。

数据轻度汇总层(DWS)

DWS 层存储经过轻度汇总后的数据,通常按照特定维度进行聚合,以方便生成报表和进行分析。这一层的数据已经具有一定的汇总和提炼,适合用于生成业务报表和指标分析。

数据应用层(ADS)

在应用层存储着最终用于应用和业务需求的数据,通常包括用户行为数据、业务指标数据、推荐结果等。这些数据通常被用于生成报表、展示数据分析结果,或支持业务决策和推荐系统运行。

结语: 数据仓库是我们大数据十分重要的组成部分,也能在这套规范里找到处理海量数据的智慧。(虽然很多公司即使用了数据仓库后还是有很多效率,浪费之类的问题,但那就是数据治理的后话了)

我是 jiweilai,祝你变的更强!


http://www.kler.cn/a/273062.html

相关文章:

  • Git 概述及相关命令(1)
  • 爬虫学习4
  • 优选算法精品——双指针
  • 运维工具之docker入门
  • 【华为HCIP实战课程31(完整版)】中间到中间系统协议IS-IS路由汇总详解,网络工程师
  • 拯救者y7000p 打开XMP
  • Python 小爬虫:爬取 bing 每日壁纸设为桌面壁纸
  • 最新WordPress网址导航设计师主题风格网站源码
  • 基于vue实现bilibili网页
  • Java面试题总结15之简述你对RPC,RMI的理解
  • 如何用 UDP 实现可靠传输?并以LabVIEW为例进行说明
  • springboot277流浪动物管理系统
  • python 直方图
  • js基础语法大全(时间戳,uuid,字符串转json)
  • 大模型—概念
  • 从零开始学HCIA之SDN04
  • HTML_CSS练习:HTML注释
  • 掘根宝典之C++RTTI和类型转换运算符
  • 【通信原理笔记】【二】随机信号分析——2.4 复随机过程
  • 提升地理空间分析效率,火山引擎ByteHouse上线GIS能力
  • 基于正点原子潘多拉STM32L496开发板的简易示波器
  • 【Unity】Transform、Rigidbody、CharacterController移动
  • Linux:搭建ntp服务器
  • Python面试笔记
  • Vue.js+SpringBoot开发食品生产管理系统
  • 【GPT-SOVITS-02】GPT模块解析