当前位置：首页 > article >正文

数据仓库分层理论

article 2024/10/12 0:42:22

数据仓库的分层理论是数据仓库建设和设计的基础之一，目的是将不同类型、不同处理阶段的数据分层存放和管理，以提高数据处理的效率和灵活性，同时增强数据的可维护性和可扩展性。在数据仓库中，分层帮助我们理清从原始数据到最终业务数据的整个处理流程。一般而言，数据仓库的分层包括以下几个核心层次(不同公司的分层设置不同，但大体上一致)：

1. ODS层（Operational Data Store，操作数据存储层）

ODS层是数据仓库中最底层的一部分，专门用于存储从业务系统中抽取出来的原始数据。

特点：数据未经任何处理和转换，保留了业务系统中的细节，通常会按时间戳或批次存放。
作用：
- 数据归档：保存业务系统的原始数据副本，确保可以随时追溯到源数据。
- 数据备份：如果源系统出现问题，可以从ODS层快速恢复业务数据。
- 临时存储：为后续的数据清洗、转换和处理提供数据来源。

数据通常通过ETL（抽取、转换、加载）流程从业务系统导入ODS层。ODS层的数据具有较高的时效性，但并不直接用于业务报表或分析。

2. DWD层（Data Warehouse Detail，明细数据层）

DWD层是数仓分层结构中的第二层，主要负责存储清洗过的明细数据。与ODS层相比，DWD层的数据已经过初步处理，如数据清洗、标准化和格式转换等操作。

特点：
- 数据经过了基本的清洗、去重、补全等处理，但保留了所有的明细信息（即数据粒度不变）。
- 在这一层次，数据的完整性和一致性得到了保证，但它仍是“事务性数据”，每个业务事件依然是独立的。
作用：
- 清洗与标准化：通过统一的规则对数据进行清洗，确保所有业务系统的数据格式一致，便于后续处理。
- 保留细节：虽然数据已清洗，但所有原始的明细信息都被保留，适合需要按事务级别进行的分析。
- 基础数据仓储：为后续的汇总和聚合操作提供基础数据。

DWD层的数据通常通过数据处理工具如Apache Spark、Hive等大规模数据处理平台进行批处理。

3. DWS层（Data Warehouse Summary，汇总数据层）

DWS层是数据仓库中的汇总层，主要负责存储经过聚合、汇总后的数据。与DWD层相比，DWS层的数据粒度通常较粗，是为了解决具体业务问题而进行的指标汇总。

特点：
- 数据经过了大量的业务规则和逻辑处理，已经变成了汇总后的数据（如按天、按月的销售总额，客户的累计交易次数等）。
- DWS层数据往往按照特定的业务需求进行聚合，具备一定的“统计性”和“指标性”。
作用：
- 多维汇总：可以按时间、地区、产品、客户等维度对数据进行汇总，生成多维分析的基础数据。
- 性能优化：通过提前进行汇总计算，减少在业务查询时的实时计算压力，提高响应速度。
- 服务BI分析：为BI系统或报表系统提供数据支持，便于业务团队进行实时分析。

DWS层中的数据一般面向特定的业务指标，是业务部门直接使用的数据之一。

4. ADS层（Application Data Service，应用数据服务层）

ADS层是数据仓库分层理论中的最顶层，它是直接面向业务应用的数据层，提供具体的分析和应用服务。

特点：
- 数据根据特定的业务需求进行了高度的聚合、转换，具备非常强的业务场景针对性。
- ADS层的数据粒度最粗，通常是面向用户的高层级汇总数据（如指标、KPI等），已经可以直接用于业务决策或运营。
作用：
- 业务场景驱动：ADS层的数据设计完全基于业务需求，例如日报、周报、月报中的关键指标数据，用户画像中的标签数据等。
- 支持决策与应用：直接为BI报表、数据产品、应用系统提供数据支持，帮助业务用户进行数据决策。
- 降低复杂性：通过提前计算和聚合，减少业务用户查询时的数据复杂性，提高查询性能。

在这一层，数据已经是完全为业务服务的最终结果，通常通过BI工具、报表、数据API等方式提供给业务团队或外部系统。