当前位置: 首页 > article >正文

大数据学习(82)-数仓详解

🍋🍋大数据学习🍋🍋

🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


一、什么是数据仓库


        数据仓库(下文以“数仓”称),顾名思义,存放数据的仓库,它集合了各个业务系统的数据,以金融业为例,数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策;在有些公司也作为各业务系统的数据来源。

        从逻辑上理解,数据库和数仓没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大。

        他们最主要的区别在于,传统事务型数据库如 MySQL 用于做联机事务处理(OLTP),例如交易事件的发生等;而数据仓库主要用于联机分析处理(OLAP),例如出报表等。

        有些同学可能想,数据分析、出报表等工作也可以直接通过业务数据库完成呀,数据仓库似乎也不是必需品。

        如果是简单的系统,比如初创时期,业务量少,用户和数据少,几台服务器和几个MySQL组成的系统,那确实可以实现。但当业务越做越多,用户和数据量很庞大,出报表需要跨集群关联多个系统的数据实现的话,那数仓还是很有必要的。

如果还不能理解,先想几个问题

        如果你要的数据分别存放在很多个不同的数据库,甚至存在于各种日志文件中,你要如何获取这些数据?

        如果你从各数据源中取出了你要的数据,但是发现格式不一样,或者数据类型不一样,你要怎么规范?

        如果有一天你需要在业务系统查历史数据,但发现这些数据被修改过的,你要怎么办?

        如果要跨集群关联各个不同业务系统的数据,要怎么做?怎么优化查询时间?

……

        数仓的出现,可以很好的解决上面这些问题。它通过数据抽取和清洗,将各个业务系统的数据整合落地到一个系统(数仓),规范化数据,方便在出报表做决策的时候获取数据。

二、数仓的特点


集成性


        数仓中存储的数据来源于多个数据源,原始数据在不同数据源中的存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。

稳定性


        数仓中保存的数据是历史记录,不允许被修改。用户只能通过分析工具进行查询和分析。

动态性


        数仓的数据会随时间变化而定期更新,这里的定期更新不是指修改数据,一般是将业务系统发生变化的数据定期同步到数仓,和稳定性不冲突。不可更新是针对应用而言,即用户分析处理时不更新数据。

主题性


        传统数据库对应的业务不同,数仓需要根据需求,将不同数据源的数据进行整合,即数据一般都围绕某一业务主题进行建模。例如“贷款”主题、“存款”主题等。

数仓分层


        数仓一般是分层的,而且各个公司都基于自己的业务场景进行分层,目前的分层可以说是五花八门,没有标准答案。但是最主流的还是按照这样进行分层:


        可能有些同学又要问了,直接取需要的数据落地到表就行了,为什么要分层?有啥好处?

        试想一下,如果不做分层,你按照需求从各个源系统抽取数据落地了一张表,哪一天有个业务人员让你在原来的基础上多取几个字段;另一个让你删掉字段,你怎么做?

三、数仓分层的意义在于

减少重复开发,在数据开发的过程中可以产生中间层,将公共逻辑下沉,减少重复计算;
清晰数据结构,每个分层分工明确,方便开发人员理解;
方便定位问题,通过分层了解数据血缘关系,在出问题的时候通过回溯定位问题;
简单化复杂问题,和分治法思想类似,分而治之,将复杂的问题简单化,还能解耦。


http://www.kler.cn/a/600177.html

相关文章:

  • 利用 @eslint/eslintrc 实现 ESLint9的适配
  • Retrofit中scalars转换html为字符串
  • AI 智能录音工牌产品形态总结
  • Oracle 外键/引用完整性(Foreign Key / Referential Integrity Constraints)
  • springboot milvus search向量相似度查询 踩坑使用经验
  • 【数据结构】C语言实现树和森林的遍历
  • react 大屏根据屏幕分辨率缩放
  • 整理使用Spring、SpringBoot测试的四种注解方式
  • Java Collection API增强功能系列之二 List.of、Set.of、Map.of
  • selenium基本使用(一)
  • 机器学习knnlearn2
  • 水星(MERCURY)监控初始化的恢复和转码方法
  • Numpy 简单学习【学习笔记】
  • 详细讲解css的穿透方法
  • 动态规划~01背包问题
  • 计算机网络层超全解析:从IP协议到路由算法
  • SpringBoot-3-JWT令牌
  • wordpress靶场练习
  • CI/CD(五) 安装helm
  • 基于AWS Endpoint Security(EPS)的全天候威胁检测与响应闭环管理