数仓必备概念
目录
数据仓库
三范式建模
维度建模
数据仓库
是一个面向主题的(Subject)、集成的(Integrated)、非易失(Non-Volatile)、时变性(Time Variant)的数据集合,用于支持管理决策(Decision Support System)
概念 | 解释 | 备注 |
主题 | 在较高层次上将企业信息系统中数据进行综合、归类分析利用的一个抽象概念,每一个主题基本对应一个宏观分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。 面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系 | |
主题域 | 对某个主题进行分析后确定的主题的边界。比如,对于餐饮公司管理层需要分析的主题一般包括供应商主题、商品主题、客户主题等。其中商品主题的内容包括记录超市商品的采购情况、商品的销售情况和商品的存储情况;客户主题包括的内容可能有客户购买商品的情况; | |
基础主题 | 数仓按实体进行综合、归类,每一个主题基本对应一个或多个核心实体,并对其进行完整并且一致的描述,刻画其所涉及的企业各项数据。主题间数据是高度解耦的 | |
分析主题 | 数仓中根据实际的分析主体对数据综合、归类分析利用的集合。一个分析主题一般是对某一分析主体的高度汇总的数据集合,可以多个基础主题的数据聚集而成,如 “客户分析主题” | |
集成 | 数据进入数仓进行转换、重新格式化、重新排列以及汇总等操作,结果是只要是存在与数据仓库中的数据就具有企业的单一物理映像 | |
非易失 | 数仓的数据通常以批量方式载入与访问,但一般不进行数据更新,以静态快照的格式进行装载。当产生后继变化时,一个新的快照记录就会写入数仓,这样数仓就保持了数据的历史状况 | |
时变性 | 数仓中的每个数据单元在某一时间是准确的,数仓的数据是反映历史变化的 | |
OLTP | OLTP 系统主要用来记录某类业务事件的发生,数据会以增删改的方式在数据库中进行数据的更新处理操作,要求实时性高、稳定性强、确保数据及时更新成功,像公司常见的业务系统如ERP,CRM,OA等系统都属于OLTP。 | |
OLAP | 联机分析处理。OLAP 系统主要为公司做决策提供支持,当数据积累到一定的程度,需要对过去发生的事情做总结分析,并从中获取信息 |
三范式建模
业界一般叫实体关系模型,是指提炼业务,归纳并设计对应的实体—关系模型的过程。ER建模最终输出的结果为实体关系图(ERD-Entity Relationship Diagram),ERD有三个基本元素,分别是:实体、属性、联系。
概念 | 解释 | 备注 |
实体 | 一般认为,客观上可以相互区分的事物,实体可以是具体的人或物,也可以是抽象的概念与特质。关键在于一个实体能否与另一个实体相互区分。 | |
属性 | 属性是依托于实体存在的,如商家是一个实体,属性包括:地址,经纬度,经营品类等 | |
联系 | 联系也称关系,实体内部的关系或者是实体与实体之间的关系。实体内部的关系(实体各属性之间的联系);实体之间的关系(不同实体间的联系) | |
一般性约束 | 实体-联系数据模型中的联系型,存在3种一般性约束:一对一约束(联系)、一对多约束(联系)和多对多约束(联系),它们用来描述实体集之间的数量约束。在约束中可以分为强制参与 或 选择参与。 |
维度建模
由于这块的概念网上比较多,大家自行百度即可,有几个关键的几个地方需要牢牢掌握,如常问的星型模型,雪花模型,事实表分哪几种,等
部分概念:
事实:表示某个业务度量。
不可加事实:如价格。
半可加事实:部分维度下不可加,如余额不可以按照时间累加。
---关注我,持续更新中。