数据仓库简介(一)
数据仓库概述
1. 什么是数据仓库?
数据仓库(Data Warehouse,简称 DW)是由 Bill Inmon 于 1990 年提出的一种用于数据分析和挖掘的系统。它的主要目标是通过分析和挖掘数据,为不同层级的决策提供支持,构成商业智能(BI)的一部分。
1.1 数据仓库的目标
数据仓库的核心目标是:
- 分析与挖掘数据:提供决策支持。
- 集中数据存储:从多种来源采集和抽取数据,形成企业数据的全局视图。
- ETL 技术:通过数据抽取、转换和加载(ETL)技术实现数据的统一集成。
1.2 数据仓库的定义
数据仓库是一个:
- 面向主题的:专注于特定的业务主题。
- 集成的:从不同的数据源聚合数据。
- 相对稳定的:数据在装入后一般不可更新,主要用于查询。
- 反映历史变化的:保存历史数据,支持管理决策。
4. 数据仓库的特点
面向主题
数据仓库专注于特定业务领域,仅保留与该主题相关的数据,排除无关细节。
随时间变化
数据仓库能够保存历史数据,支持基于时间变化的分析,通常使用拉链表的方式在保证访问历史快照的同时降低存储空间。
集成的
通过 ETL 操作,将来自不同来源的数据集成到统一的数据仓库中。
数据不可更新
数据仓库的数据在加载后主要进行查询操作,不支持传统数据库的增删改操作,反映的是长时间范围内的历史数据。
5. 数据仓库与关系型数据库区别
特性 | 数据仓库 /Hive | 关系型数据库/Mysql,Oracle |
---|---|---|
数据范围 | 历史的/完整的/反映历史变化的数据 | 当前在线交易状态数据 |
数据变化 | 可添加/无删除/无更新/反应历史变化 | 支持频繁的增删改查 |
应用场景 | BI、支持战略决策 | 面向业务交易/事务流程 |
设计理论 | 面向主题设计、违背范式、适当冗余 | 面向事务设计、遵循范式、避免冗余 |
处理特点 | 非频繁/大批量/高吞吐/有延迟 | 频繁/小批次/高并发/低延迟 |
服务对象 | 分析数据、服务于决策支持 | 捕获数据、服务于业务操作人员 |