当前位置: 首页 > article >正文

【赵渝强老师】Spark RDD的依赖关系和任务阶段

在这里插入图片描述

Spark RDD彼此之间会存在一定的依赖关系。依赖关系有两种不同的类型:窄依赖和宽依赖。

  • 窄依赖:如果父RDD的每一个分区最多只被一个子RDD的分区使用,这样的依赖关系就是窄依赖;
  • 宽依赖:如果父RDD的每一个分区被多个子RDD的分区使用,这样的依赖关系就是宽依赖。

map、filter、union等操作都是典型的窄依赖操作,如下图所示。通过观察发现,每一个父RDD的分区都只被一个子RDD的分区使用。
在这里插入图片描述

注意:join操作可能会比较特殊,某些情况的join是窄依赖操作;但有些情况的join是宽依赖操作。需要具体问题具体分析。

视频讲解如下

【赵渝强老师】Spark RDD的窄依赖关系

宽依赖最典型的操作就是分组,如下图所示。这里父RDD的每一个分区都被多个子RDD的分区使用。
在这里插入图片描述

注意:这里的join操作就是一个宽依赖操作。

视频讲解如下

【赵渝强老师】Spark RDD的宽依赖关系

有了RDD之间不同的依赖关系,就可以划分任务执行的阶段,从而构建任务执行的DAG(Directed Acyclic Graph,有向无环图)图。对于窄依赖,分区的转换处理在同一个阶段中完成计算;对于宽依赖,由于有Shuffle的存在,只能在父 RDD处理完成后,子RDD才能开始计算,因此宽依赖是划分任务阶段的标准。下图中的任务一共被划分成了三个不同阶段来执行。
在这里插入图片描述

视频讲解如下

【赵渝强老师】如何划分Spark任务的执行阶段

通过借助Spark Web Console可以很方便的查看到任务被划分的阶段以及DAG图。下图是在Web Console查看WordCount任务的DAG图。
在这里插入图片描述


http://www.kler.cn/a/528426.html

相关文章:

  • AI协助探索AI新构型的自动化创新概念
  • litemall,又一个小商场系统
  • 数据结构的队列
  • CRC校验详解
  • java求职学习day23
  • 【微服务与分布式实践】探索 Eureka
  • matlab的.mat文件怎么把表格中的值全部设置为空
  • 力扣257. 二叉树的所有路径(遍历思想解决)
  • Python在数据科学领域的深度应用:从数据处理到机器学习模型构建
  • 云原生后端架构与实践:从微服务到Serverless
  • cpp实战项目—string类的模拟实现
  • 微机原理与接口技术期末大作业——4位抢答器仿真
  • 神经网络的数据流动过程(张量的转换和输出)
  • 小程序设计和开发:什么是竞品分析,如何进行竞品分析
  • 代码随想录刷题day22|(字符串篇)344.反转字符串、541.反转字符串 II
  • 【数据结构】_复杂度
  • JavaScript前后端交互-AJAX/fetch
  • 记4(可训练对象+自动求导机制+波士顿房价回归预测
  • Docker 部署 GLPI(IT 资产管理软件系统)
  • LabVIEW无人机航线控制系统
  • 8 比例缩放(scale.rs)
  • 我用Ai学Android Jetpack Compose之Row
  • .Net Web API 访问权限限定
  • JavaFX - 3D 形状
  • 如何使用 ChatBox AI 简化本地模型对话操作
  • ROS-激光雷达模块学习[粗]