当前位置：首页 > article >正文

Spark内存迭代计算

article 2025/3/4 6:28:00

一、宽窄依赖

窄依赖：父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖：父RDD的一个分区数据发往子RDD的多个分区，也称为shuffle

（1）Spark生成DAG图

（2）基于宽窄依赖对DAG图进行阶段划分

（3）每个stage内部都是窄依赖，窄依赖内，前后形成1：1的分区关系，一个stage的多个并行任务就成为了多个内存迭代计算管道

（4）这些内存迭代计算的管道，就是一个个具体的执行Task

（5）一个Task是一个具体的线程，任务跑在一个线程之中，就是走内存计算了。

Vue进阶之Vue2源码解析

python 使用 venv 创建虚拟环境 (VSCode)

游戏引擎学习第131天

Linux（ftrace）__mcount的实现原理

bean的管理-03.第三方bean

C++-第二十章：智能指针

蓝桥杯18584-个人消息同步

STM32CubeMx DRV8833驱动

C++里面四种强制类型转换

ES如何打印DSL