当前位置: 首页 > article >正文

大数据学习(83)-数仓建模理论

🍋🍋大数据学习🍋🍋

🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


1 数仓分层


1.1 基本分层模型


分层原因:
把复杂问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单任务,方便定位问题。
减少重复开发:规范数据分层,通过中间层数据,能够减少大量的重复计算,增加一次计算结果的复用性。
隔离原始数据:不论是数据的异常还是数据的敏感性,使真实数据与统计数据隔离开。


1.2 数据集市和数据仓库


数据集市:部门级。一种微型的数据仓库,通常具有更少的数据,更少的主题区域,以及更少的历史数据。
数据仓库:企业级。能为整个企业各个部门运转提供决策支持手段。


2 数仓理论


2.1 范式理论


详见过往文章对范式理论的解释:Java Web 02 — MySQL_02(数据库的设计、数据库的备份和还原、多表查询、事务、DCL)

第一范式1NF:属性不可切割
第二范式2NF:不能存在部分函数依赖
第三范式3NF:不能存在传递函数依赖


2.2 关系建模和维度建模


当今的数据处理大致可以分为2类:联机事务处理OLTP ( on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。二者的主要区别对比如下表所示。
 

对比属性OLTP(联机事务处理)OLAP(联机分析处理)
读特性每次查询只返回少量数据对大量数据进行汇总
写入特性随机、低延时写入用户的输入批量导入
使用场景用户,JavaEE项目等需要频繁读写操作的应用场景内部分析师,为决策提供支持,需要处理和分析大量历史数据
数据表征最新数据状态,强调数据的实时性和准确性随时间变化的历史状态,强调数据的全面性和趋势分析
数据规模GB级别,数据量相对较小,但读写操作频繁TB、PB级别,数据量巨大,注重数据处理和分析能力

2.3 维度表和事实表


2.3.1 维度表


        维度表:一般是对事实的描述信息。每一张维表对应显示世界中的一个对象或者概念。
维度表特征:
        维度的范围很宽(具有多个属性,多个列)
        和事实表相比,行数相对少
        内容相对固定:编码表
        如商品信息表,每一行表示一种商品的具体特征和概念(小米手机,128G,白色,4999元)


2.3.2 事实表


        每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键、通常具有两个和两个以上的外键、外键之间表示维表之间多对多的关系。可统计的
特征:
        非常大
        内容相对窄(列数少)
        经常发生变化,每天会新增很多


http://www.kler.cn/a/600402.html

相关文章:

  • 新版 eslintrc 文件弃用 .eslintignore已弃用 替代方案
  • x-cmd install | Wuzz - Web 开发与安全测试利器,交互式 HTTP 工具
  • 基于javaweb的SpringBoot公司财务管理设计与实现(源码+文档+部署讲解)
  • Linux上位机开发实战(编写API库)
  • VitePress由 Vite 和 Vue 驱动的静态站点生成器
  • Python:单例模式魔法方法
  • 【机器学习】--二分类
  • flink广播算子Broadcast
  • matlab近似计算联合密度分布
  • 当汉堡遇上便当:TypeScript命名空间 vs JavaScript模块化
  • 销售易CRM:技术革新助力客户关系管理智能化
  • DHCPv6 Stateless Vs Stateful Vs Stateless Stateful
  • 关于网络的一点知识(持续更新)
  • 【第二月_day7】Pandas 简介与数据结构_Pandas_ day1
  • 数据结构——链式队列
  • Spring Security核心源码和功能实现
  • M芯片mac安装Linux虚拟机
  • HTML和CSS基础
  • 数据结构初阶-二叉树的应用
  • 1688关键字API接口解析:(实战案例)