当前位置: 首页 > article >正文

20250118 Flink中的延迟执行机制和数据处理的逻辑拓扑结构(向圖)

一. 延迟执行机制

  1. 延迟执行机制

     

    收起

    java

    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    DataStream<String> inputStream = env.fromElements("input1", "input2", "input3");
    DataStream<Integer> outputStream = inputStream.map(str -> str.length()).filter(len -> len > 3);
    
     
    • Flink 采用延迟执行(Lazy Evaluation)模式。在程序的main方法执行阶段,只是构建了数据处理的逻辑拓扑,也就是将各个算子(如mapfilter等)添加到一个有向图(Dataflow Graph)中。这个阶段并没有真正的数据加载和处理操作。例如,当你定义一个DataStream并对其进行一系列的转换操作,如:
    • 在这部分代码执行时,mapfilter算子只是被添加到了数据处理的逻辑拓扑结构中,并没有真正开始处理数据。
  2. 执行触发

    • 只有当执行环境(StreamExecutionEnvironmentExecutionEnvironment)的execute()方法被调用时,Flink 才会根据构建好的有向图来真正地执行数据处理流程。这使得 Flink 能够在执行之前对整个数据处理流程进行优化,比如确定算子的执行顺序、并行度等。而且这种执行方式也使得程序在本地执行和在集群执行的切换比较灵活,取决于执行环境的配置。如果是本地执行环境(LocalStreamExecutionEnvironment等),数据处理就会在本地机器上进行;如果是集群执行环境(RemoteStreamExecutionEnvironment等),数据处理就会在集群中的多个节点上分布式地进行。这种机制有助于提高程序的可移植性和灵活性,同时也能够有效地利用计算资源。

二. 逻辑拓扑结构(向圖)

  1. 有向图的基本概念
    • 在 Flink 中,数据处理的逻辑拓扑结构以有向图(Directed Graph)的形式存在。有向图由顶点(Vertices)和边(Edges)组成。在 Flink 的数据处理场景下,顶点代表算子(Operators),比如mapfilterreduce等操作;边代表数据的流向,也就是数据从一个算子流向另一个算子的通道。
    • 例如,假设有一个简单的 Flink 程序,首先从数据源读取数据(可以看作是一个 “数据源算子”),然后进行map操作,再进行filter操作。在这个逻辑拓扑结构的有向图中,就会有三个顶点,分别代表数据源、map算子和filter算子。会有两条边,一条从数据源指向map算子,表示数据从数据源流向map算子;另一条从map算子指向filter算子,表示经过map处理后的数据流向filter算子。
  2. 分层理解
    • 算子层(Vertices)
      • 每个算子都有其特定的功能。以map算子为例,它会对输入的每个数据元素进行转换操作。假设输入的是一个数据流,其中的数据元素是字符串,map算子可能会将每个字符串转换为其长度。filter算子则会根据给定的条件筛选数据元素,例如只保留长度大于某个值的字符串长度数据。这些算子就像流水线上的不同加工站,对数据进行不同的处理。
    • 数据流层(Edges)
      • 数据在算子之间通过数据流进行传递。数据流的方向是由有向图的边来定义的。数据的流动是基于事件驱动的,当有新的数据元素在数据源产生后,它会沿着有向图的边,依次经过各个算子进行处理。例如,在一个实时流处理程序中,数据源不断产生新的数据,这些数据就会按照有向图规定的路径,从一个算子快速地 “流动” 到下一个算子,进行持续不断的处理。
  3. 优势
    • 并行处理规划:这种有向图结构有助于 Flink 规划并行处理。因为可以清楚地看到数据的流动路径,Flink 可以根据硬件资源和算子的特性,将不同的算子分配到不同的计算节点上并行执行,同时还能保证数据按照正确的顺序在各个节点之间流动。例如,在一个大数据集的处理场景中,如果有多个map算子,Flink 可以将它们分配到多个 CPU 核心或者多个集群节点上,同时处理不同的数据子集,从而提高处理效率。
    • 优化和可视化:逻辑拓扑结构便于 Flink 进行内部优化。例如,它可以对相邻的算子进行合并或者重新排序等操作,以减少数据传输的开销或者提高处理速度。同时,对于开发者来说,通过工具可以将这个逻辑拓扑结构可视化,帮助更好地理解程序的数据处理流程和可能存在的瓶颈。

http://www.kler.cn/a/508163.html

相关文章:

  • 基于 Spring Boot、Vue 实现的调问开源问卷系统
  • Linux操作命令之云计算基础命令
  • 安卓端使用线程下载文件卡滞
  • 基于javaweb的SpringBoot景区旅游管理系统设计和实现(源码+文档+部署讲解)
  • Biotin sulfo-N-hydroxysuccinimide ester ;生物素磺基-N-羟基琥珀酰亚胺酯;生物素衍生物;190598-55-1
  • [Azure] 如何解决个人账号无法直接登录的问题:利用曲线救国方法访问Speech Studio
  • 利用爬虫获取某学习软件的考试题库(带源码)
  • LLM(大语言模型)支撑下的传统工作流转型发展为AI工作流
  • linux的用户管理和权限设置相关命令
  • 工业视觉5-工业视觉选型
  • C++(二十一)
  • DNS服务学习
  • 基于微信小程序教学辅助系统设计与实现(LW+源码+讲解)
  • ChatGPT升级AI私人助理功能:新增定时播报全网热点与定制每日学习健身计划
  • Spring Boot中Tomcat配置
  • AF3 TriangleMultiplicativeUpdate类代码解读
  • CVPR 2024 图像处理方向总汇(图像去噪、图像增强、图像分割和图像恢复等)
  • ChatGPT结合Excel辅助学术数据分析详细步骤分享!
  • 洛谷 P2392 kkksc03考前临时抱佛脚 刷题笔记 dfs
  • 先进制造aps专题二十七 西门子opcenter aps架构分析