当前位置: 首页 > article >正文

短分享-Flink图构建

一、背景

通过简单的书写map、union、keyby等代码,Flink便能构建起一个庞大的分布式计算任务,Flink如何实现的这个酷炫功能呢?我们本次分享Flink做的第一步,将代码解析构建成图

源码基于Flink 2.10,书籍参考《Flink核心技术源码剖析与特性开发》第四章

我这次会用一个简单的代码来举例图的构建过程

二、例子代码

以上代码转换关系如下图:

三、代码转StreamGraph

3.1 路由关系的搭建

Flink中每一次转换(如map)用Transformation表示,每次转换都会有一条类似的边被保存(Transformation1-> Transformation2) ,而所有的关联关系存储在Environment的transformations中

3.2 路由关系转StreamGraph

有了所有的边,就可以将边构成图了,图主要通过递归关系构建,不同Transformation有不同处理策略,对于map会把该结点和它之前的结点构成边,对于union会把它的前后结点连接起来,对于keyby会变成边的策略

转换之后图如下所示,可以看到union和keyby都消失了

我们debug中间过程,可以看到确实是7个结点

且keyby变成了边的策略

四、StreamGraph转JobGraph

在这一步会做很做很多重要操作,比如结点链接,配置检查点,设置分布式缓存文件等,我们本次主要聚焦于结点的链接,满足如下条件的会被链接

StreamGraph转JobGraph同样通过递归进行,链接完后的图如下图所示,map1和map2被链接,map4和slink被链接:

可以debug中间过程,可以看到确实是只剩了5个结点:

如果我们再加上实际的对象,实际如下图所示,每个结点是一个JobVertex,IntermediateDataSet 对象就是数据写入的地方,JobEdge是连接关系

其中ID是IntermediateDataSet,为后面数据分区做准备

JE是JobEdge

五、JobGraph转ExecutionGraph

JobGraph创建好之后,会被提交到JobManager,在JobManager中会根据JobGraph图做拓扑排序,然后完成JobGraph到ExecutionGraph的转化,其中:

JobVertex一比一转换ExecutionJobVertex,ExecutionJobVertex会根据并发度拆分成ExecutionVertex,比如map1->Map2,就会变成两个ExecutionVertex

IntermediateDataSet会转成IntermediateResult,并根据生产结点个数,拆成不同的数据分区IntermediateResultPartition,比如map1->Map2,就会变成两个ExecutionVertex,同时有两个IntermediateResultPartition

转换之后的图为如下所示,其中:

IRP=IntermediateResultPartition 表示一个数据分区,数据分区满了之后会Flink会根据边ExecutionEdge的关联关系,提醒下游获取数据,进行计算

EE=ExecutionEdge表示一条边

EJV=ExecutionJobVertex 表示一个Task任务,由JobVertex一比一转换

EV=ExecutionVertex,由ExecutionJobVertex根据并发度拆出来的

根据debug断点也可以看到确实有五个ExecutionJobVertex,其中map1->map2结点有两个ExecutionVertex,每个ExecutionVertex有一个IntermediateResultPartition

六、后续

Execution是ExecutionVertex的执行抽象,Flink构成图之后,会将Execution结点分发到各个TaskManager进行执行,可以看下面本地debug图,各个Execution刚刚处于创建状态等待执行,具体后续执行流程各位感兴趣可以再继续探究


http://www.kler.cn/a/580104.html

相关文章:

  • 个人记录的一个插件,Unity-RuntimeMonitor
  • HAL库常用函数
  • 基于Asp.net的高校迎新管理系统
  • Linux Bash 单命令行解释 | 文件操作 / 字符串操作 / 重定向
  • 《云原生技术:DeepSeek分布式推理的效能倍增器》
  • 探索AI对冲基金:开源自动化交易系统的革新之路
  • 2025 ubuntu24系统宿主机上在线安装mysql数据库完整演示
  • docker无法pull镜像问题解决for win10
  • hcia华为路由器静态路由实验配置
  • 再聊 Flutter Riverpod ,注解模式下的 Riverpod 有什么特别之处,还有发展方向
  • 2025年渗透测试面试题总结-快某手-安全实习生(一面、二面)(题目+回答)
  • 【实战ES】实战 Elasticsearch:快速上手与深度实践-5.3.1GeoPoint与GeoShape的选型
  • FX-继承访问权限问题
  • 小程序 wxml 语法 —— 35 wxml 语法 -声明和绑定数据
  • nnMamba:基于状态空间模型的3D生物医学图像分割、分类和地标检测
  • chebykan与代码3
  • 重估首程控股:一只产业生态完整的“机器人ETF”
  • 基于DeepSeek的智慧医药系统(源码+部署教程)
  • 【redis】pipeline管道
  • Java的缓存