Spark基础篇-Application、Job、Stage 和 Task
Spark基础篇 单独看看Application、Job、Stage 和 Task
在 Apache Spark 中,Application、Job、Stage 和 Task 是任务调度和执行的四个核心层级概念,它们构成从宏观到微观的完整执行流程。以下是对它们的详细解释及其关系:
1. Application(应用程序)
- 定义:一个完整的 Spark 程序,对应用户通过
spark-submit
提交的一个独立进程。它包含 Driver 程序(定义数据流和逻辑)和多个 Executor(执行计算的分布式进程)。 - 生命周期:从启动到终止的整个过程,例如一个数据分析脚本或实时流处理应用。
- 特点:
- 可包含多个 Job,由用户代码中的 Action 操作触发。
- 通过
SparkContext
管理资源调度和任务执行。
2. Job(作业)
- 定义:由 Acti