Apache Airflow 全面解析
1. Airflow 的定义与核心定位
Apache Airflow 是一个开源的 工作流自动化与调度平台,由 Airbnb 于 2014 年创建,2016 年进入 Apache 孵化器,2019 年成为顶级项目。其核心设计理念是 “Workflows as Code”,通过编程方式定义、调度和监控复杂的数据流水线(Pipeline),适用于 ETL、机器学习模型训练、数据湖管理、报表生成 等场景。
2. 核心概念与架构解析
2.1 核心组件
组件 | 功能描述 |
---|---|
DAG (Directed Acyclic Graph) | 定义任务依赖关系的核心抽象,以有向无环图形式描述工作流逻辑。 |
Operator | 任务执行单元,封装具体操作(如 Bash、Python、数据库操作)。分三类:Action、Transfer、Sensor。 |