当前位置: 首页 > article >正文

Spark执行计划解析后是如何触发执行的?

在前一篇Spark SQL 执行计划解析源码分析中,笔者分析了Spark SQL 执行计划的解析,很多文章甚至Spark相关的书籍在讲完执行计划解析之后就开始进入讲解Stage切分和调度Task执行,每个概念之间没有强烈的关联,因此这中间总感觉少了点什么,执行计划是如何触发执行的?是Spark自动触发的?还是由客户端的代码触发的?本文笔者为了解答这几个疑问,尝试进行了相关代码的分析。

物理计划都是继承自SparkPlan类,在研究如何触发执行计划之前我们来看一下最终的物理计划是实现逻辑是怎么样的,这里以SparkPlan的子类FileSourceScanExec作为列子来分析一下:
FileSourceScanExec
在非Columnar的模式下,普通的算子执行都是以重写doExecute方法来实现的,FileSourceScanExec同样也不例外,下面是FileSourceScanExec的doExecute方法:
doExecute
在这里插入图片描述

我们可以看到doExecute方法的返回值是RDD[InternalRow], 这也是单个物理计划Node转化成RDD关键一步。到这里我们搞清楚了SparkPlan底层是依赖于RDD实现具体的逻辑,那么接下来我们分析一下Spark是如何将一个一个物理计划节点转换成一个一个RDD的。

首先Spark执行模型是火山模型(又叫迭代器模型),通过迭代器模型,Spark会先调用execute方法,execute方法会调用每个Node的doExecute,而从上面的分析我们可以得知每一个doExecute方法的返回类型都是RDD,因此就把每个单独的Node给串联起来了,具体的代码在SparkPlan.execute。
在这里插入图片描述
下面是一个简单查询对应的物理计划转换成RDD的大致逻辑:
在这里插入图片描述
到这里我们知道知道了多个物理计划Node会转换成多个RDD,而触发这个转换的则是下面的代码,调用了executedPlan.execute(),也就是触发executedPlan转换成RDD。在这里插入图片描述
后续的逻辑就是以RDD来进行的,那么RDD又是如何计算的呢?我们知道RDD分为Transformation和Action两种类型的操作,而Transformation是惰性的,只有Action会触发计算,因此只有Action被调用的时候,RDD才会触发计算,对应的Spark的执行计划才会开始触发具体的逻辑执行。Action算子有很多中,我们可以以常见的show、take等作为入口去分析源码,被调用的地方大部分都在DataSet里面,可以一一对应地查看。

以上的逻辑仅仅是分析Spark地物理计划是如何触发执行的,还没到切分Stage以及调度Task的阶段。从这一部分的源码分析,我们可以清楚的了解到Spark的物理计划是被火山模型如何串联起来的,以及底层的RDD是如何把一一对应的,这对于理解每一个物理执行计划的Node至关重要。无论是SQL还是PySpark等DataFrame操作,最终都会转换成RDD的逻辑。

题外话:笔者之前都是一直只是知道Spark中RDD的概念,但是并没有很深刻的理解RDD的一个重要性,通过本文的分析,才清楚的认识到RDD在Spark当中扮演着如此重要的角色。


http://www.kler.cn/a/440941.html

相关文章:

  • Longformer:处理长文档的Transformer模型
  • DeepSeek 云端部署,释放无限 AI 潜力!
  • 我的创作纪念日——成为创作者的 第365天(1年)
  • 快速提升网站收录:利用网站内链布局
  • 数据库性能优化(sql优化)_SQL执行计划03_yxy
  • 【字符串两大注意事项】
  • 表格树(有展开功能)数据量大导致渲染慢问题的解决方法
  • 【21天学习AI底层概念】day8 强人工智能会在什么时候实现?
  • [Unity Shader] 【图形渲染】Unity Shader的种类1-深入理解表面着色器(Surface Shader)
  • 设计模式12:状态模式
  • Leetcode经典题14--罗马数字和整数之间的相互转换
  • 【linux】shell(37)-脚本调试
  • Scala-异常
  • 网络安全、Web安全、渗透测试之笔经面经总结(二)
  • 鸿蒙项目云捐助第十讲鸿蒙App应用分类页面二级联动功能实现
  • QT TCP(socket)编程-服务器与客户端IP地址问题
  • 在 SQL Server 中获取指定字符所在有位置索引
  • stm32-- 存储-flash和ram
  • Hadoop概述
  • Linux实操篇-远程登录/Vim/开机重启
  • 【超详细实操内容】django的身份验证系统之User对象
  • 科技快讯 | 开源鸿蒙5.0版本即将亮相;英国测试AI摄像头抓酒驾;Kimi 发布视觉思考模型 k1
  • 单元测试知识总结
  • FFMPEG视频转图片
  • 【大模型微调学习6】-实战Hugging Face Transformers工具库
  • 太速科技-365-基于XC7Z045+AD9361的双收双发无线电射频板卡