当前位置：首页 > article >正文

什么是ETL

article 2025/3/22 20:49:35

概述

ETL（Extract-Transform-Load）是一种数据集成过程，常用于数据仓库、数据分析、数据清洗等场景。ETL的主要目标是从不同数据源提取数据，进行清洗、转换，然后加载到目标数据仓库或分析系统。

ETL所描述的过程，一般常见的作法包含ETL或是ELT，并且混合使用。通常越大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库，越偏向ELT，以便运用目的端数据库的平行处理能力。

借助ETL工具（如Oracle的OWB、SQL Server 2000的DTS、SQL Server 2005的SSIS服务、Informatic等）实现
SQL实现
ETL工具和SQL结合。

借助工具可以快速的建立起ETL工程，屏蔽了复杂的编码任务，提高了速度，降低了难度，但是缺少灵活性。SQL方法灵活，提高ETL运行效率，但是编码复杂，对技术要求比较高。

数据仓库（Data Warehouse）是一种面向分析和决策支持的数据库系统

主要针对各个业务系统不同服务器的分散数据，充分理解数据定义后，规划需要的数据源及数据定义，制定可操作的数据源，制定增量抽取和缓慢渐变的规则。

提取是把多种多样的原格式数据抽象出来，形成统一的数据格式先放入缓存区，不会直接进入数据仓库，等待下一步转换操作。

数据的抽取是从各个不同的数据源抽取到ODS（Operational Data Store，操作型数据存储）中

首先，要搞清楚数据是从几个业务系统中来，各个业务系统的数据库服务器运行什么DBMS，是否存在手工数据，手工数据量是多大，是否存在非结构化数据等，当收集完这些信息之后才可以进行数据抽取的设计。

不同场景可以选择不同的 ETL 工具进行数据抽取：

ODBC（Open Database Connectivity）开放数据库连接，是一种数据库访问接口，用于让不同的软件能够访问不同类型的数据库，而不需要针对每种数据库写特定的代码。

Transform负责对数据进行清洗、格式转换、聚合、标准化等操作，以便数据能够正确加载到数据仓库或数据湖，并适用于分析或机器学习任务

类别	说明	示例
数据清洗（Cleaning）	处理空值、去重、修正错误数据	去掉 `NULL` 值、填充缺失数据
数据标准化（Standardization）	统一不同来源的数据格式	`YYYY/MM/DD` → `YYYY-MM-DD`
数据类型转换（Type Conversion）	统一数据类型，避免计算错误	`"123"` (字符串) → `123` (整数)
数据去重（Deduplication）	删除重复数据，保持唯一性	同一个订单号重复出现，去重
数据拆分 & 合并（Splitting & Merging）	拆分列、合并列，调整数据结构	`full_name` → `first_name` + `last_name`
数据派生（Derivation）	计算新字段	`total_price = quantity * unit_price`
数据映射（Mapping）	用标准值替换非标准值	`M` → `Male`, `F` → `Female`
数据聚合（Aggregation）	按维度分组统计	按 `customer_id` 统计 `total_orders`
数据编码（Encoding）	数据脱敏、哈希处理	手机号加密 `138****5678`