当前位置: 首页 > article >正文

Flink中并行度和slot的关系——任务和任务槽

一、任务槽(task slots)

        Flink的每一个TaskManager是一个JVM进程,在其上可以运行多个线程(任务task),那么每个线程可以拥有多少进程资源呢?任务槽就是这样一个概念,对taskManager上每个任务运行所占用的资源做出明确的划分,即每个任务槽就表示了TaskManager拥有计算资源的一个固定大小的子集。

二、任务槽数量的设置

        一个slot独享taskManager意味着更高的隔离级别,任务彼此之间影响降低;多个slot则能共享TCP连接、心跳信息、数据集等,  减少了每个任务的运行开销,在降低隔离级别时提高了性能。

        可以通过taskmanager.numberOfTaskSlots参数来设置slot数量,最好设置为Cpu核数,因为slot仅仅用来隔离内存,避免不同任务对cpu的竞争。

三、共享slot

        对于不同任务节点的子任务,Flink允许它们共享slot。即每个任务节点的子任务一字排开,占据不同的slot, 不同任务节点的子任务可以共享slot

        那么为什么要共享slot呢?引文不同任务节点所需资源是不同的,有些是资源密集型,有些是资源非密集型。设想这样一种情况:在不共享时,有三个任务节点:source/map(这里由于并行度一致,所以合并算子链了)、widdow、sink,其中window是资源密集型的,那么当大量数据到来时,source/map和sink都可以很快完成,但window任务耗时很久,于是下游的sink任务所占据的slot就会因为等待而闲置,而上游的source/map任务也会因为数据积压而产生背压,从而资源开始等待,这样资源的利用效率就会大大降低。

        解决这一问题的思路就是共享slot,在一个slot上同时存在资源密集型和非密集型任务,它们自由分配对资源的占用比例(即将资源密集型任务平均分配到每一个slot)从而提升资源利用率。

        默认情况下,由于同一任务节点的并行子任务不能共享slot,所以slot的数量就取决于所有算子并行度的最大值。当然,也可以通过slotSharingGroup手动指定共享slot。

四、并行度和slot的关系

        slot是静态的概念,指taskManager所拥有的并发执行能力;并行度是动态的概念,指实际运行中的并发能力。因此,并行度应当<=slot数,一旦超出也只能等待。因此,所有算子并行度中最大的那个就代表所需的slot数。

        


http://www.kler.cn/a/452017.html

相关文章:

  • 【论文阅读笔记】IC-Light
  • PyQt实战——使用python提取JSON数据(十)
  • VMware虚拟机超详细安装Linux教程(最新版)
  • TORCH_CUDA_ARCH_LIST
  • 【Web】2024“国城杯”网络安全挑战大赛决赛题解(全)
  • SharpDX 从入门到精通:全面学习指南
  • VUE前端实现防抖节流 Lodash
  • TCN-Transformer+LSTM多变量回归预测(Matlab)添加气泡图、散点密度图
  • “自动驾驶第一股” 图森未来退市转型:改名 CreateAI、发布图生视频大模型 “Ruyi”
  • 大模型-Dify使用笔记
  • QT安装5.15之后的版本和安装后添加其他漏装模块
  • mac中idea中英文版本切换
  • 金融数据可视化实现
  • mac启ssh服务用于快速文件传输
  • [创业之路-204]:《华为战略管理法-DSTE实战体系》- 5-平衡记分卡绩效管理
  • M系列芯片切换镜像源并安装 openJDK17
  • 【Mac】终端改色-让用户名和主机名有颜色
  • 一个C#开发的APP
  • MySQL最左匹配原则是什么
  • 【开发问题记录】eslint9 中 eslint 和 prettier冲突
  • 《Cocos Creator游戏实战》非固定摇杆实现原理
  • C#Directory类文件夹基本操作大全
  • 微信小程序的轮播图学习报告
  • ChatGPT之父:奥尔特曼
  • spring boot的配置文件属性注入到类的静态属性
  • 图像处理-Ch7-图像金字塔和其他变换