当前位置: 首页 > article >正文

Spark内存迭代计算

一、宽窄依赖

窄依赖:父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖:父RDD的一个分区数据发往子RDD的多个分区,也称为shuffle

二、Spark是如何进行内存计算的?DAG的作用?Stage阶段划分的作用?

(1)Spark生成DAG图

(2)基于宽窄依赖对DAG图进行阶段划分

(3)每个stage内部都是窄依赖,窄依赖内,前后形成1:1的分区关系,一个stage的多个并行任务就成为了多个内存迭代计算管道

(4)这些内存迭代计算的管道,就是一个个具体的执行Task

(5)一个Task是一个具体的线程,任务跑在一个线程之中,就是走内存计算了。


http://www.kler.cn/a/567980.html

相关文章:

  • 电脑软件:推荐一款非常实用的PDF合并分割工具PDFsam
  • 第十三届蓝桥杯大赛软件赛决赛C/C++ 大学 B 组
  • PySpark实现Snowflake数据导出到Amazon Redshift
  • Vue进阶之Vue2源码解析
  • python 使用 venv 创建虚拟环境 (VSCode)
  • 网络运维学习笔记(DeepSeek优化版)009网工初级(HCIA-Datacom与CCNA-EI)路由理论基础与静态路由
  • 游戏引擎学习第131天
  • 定制开发开源AI大模型S2B2C商城小程序在私域流量池构建中的应用探索
  • Linux(ftrace)__mcount的实现原理
  • SpringMVC(2)传递JSON、 从url中获取参数、上传文件、cookie 、session
  • bean的管理-03.第三方bean
  • ChatGPT与DeepSeek:AI语言模型的巅峰对决
  • C++-第二十章:智能指针
  • 【Java】I/O 流篇 —— 打印流与压缩流
  • 面试【进阶】 —— 说下csr、ssr、ssg 的区别?
  • 蓝桥杯18584-个人消息同步
  • 红黑树和 STL —— set和map 【复习笔记】
  • STM32CubeMx DRV8833驱动
  • C++里面四种强制类型转换
  • ES如何打印DSL