当前位置: 首页 > article >正文

实时数据开发|Flink状态计算 有状态VS无状态,区别和优劣

有状态计算是Flink非常重要的特性之一。

有状态计算是指在程序计算过程中,在Flink程序内部存储计算产生的中间结果,并提供给后续Function或算子计算结果使用。如图5-1所示,状态数据可以维系在本地存储中,这里的存储可以是Flink的堆内存或者堆外内存,也可以借助第三方的存储介质,例如Flink中已经实现的RocksDB,当然用户也可以自己实现相应的缓存系统去存储状态信息,以完成更加复杂的计算逻辑。

今天正式把一个实时任务从ods到dwd到ads数据打通了,从开始的迷迷糊糊到逐渐懂了些门道,数据流打通的时候我感觉自己强的可怕,下周还能再调几个。hhh一般说出这样的话就要打脸了,下周再跟着好好学学怎么看日志吧。

在启动实时任务的时候我发现可以选择有状态启动和无状态启动,想起来之前有了解过Flink的有状态计算。准备回来再学一下:

–学习区–

和状态计算不同的是,无状态计算不会存储计算过程中产生的结果,也不会将结果用于下一步计算过程中,程序只会在当前的计算流程中实行计算,计算完成就输出结果,然后下一条数据接人,然后再处理。

无状态计算实现的复杂度相对较低,实现起来较容易,但是无法完成提到的比较复杂的业务场景,例如下面的例子:

  • 用户想实现CEP(复杂事件处理),获取符合某一特定事件规则的事件,状态计算可以将接入的事件进行存储,然后等待符合规则的事件触发;
  • 用户想按照分钟、小时、天进行聚合计算,求取当前的最大值、均值等聚合指标这就需要利用状态来维护当前计算过程中产生的结果,例如事件的总数、总和以及最大,最小值等;
  • 用户想在Sucam上实现机器学习的模型训练,状态计算可以帮助用户维护当前版本模型使用的参数;
  • 用户想使用历史的数据进行计算,状态计算可以帮助用户对数据进行缓存,使用户可以直接从状态中获取相应的历史数据。

以上场景充分说明了状态计算在整个流式计算过程中重要性,可以看出,在Flink引人状态这一特性,能够极大地提升流式计算过程中数据的使用范围以及指标计算的复杂度,不再需要借助类似于Redis外部缓存存储中间结果数据,这种方式需要频繁地和外部系统交互,并造成大量系统性能开销,且易保证数据在传输和计算过程中的可靠,当外部存储发生变化,就可能会影响到Flink内部的计算结果。


http://www.kler.cn/a/429848.html

相关文章:

  • Ubuntu中使用miniconda安装R和R包devtools
  • PHP 循环控制结构深度剖析:从基础到实战应用
  • 【物流管理系统 - IDEAJavaSwingMySQL】基于Java实现的物流管理系统导入IDEA教程
  • [石榴翻译] 维吾尔语音识别 + TTS语音合成
  • NanoLog起步笔记-7-log解压过程初探
  • 什么是反向代理?作用、原理和实例详解
  • 反向代理-缓存篇
  • ubuntu22.04 使用可以用的镜像源获取你要的镜像
  • 数据结构与算法学习笔记----树与图的深度优先遍历
  • MACOS M1/M2芯片 Homebrew 安装教程
  • FastAPI解决跨域报错net::ERR_FAILED 200 (OK)
  • REDMI瞄准游戏赛道,推出小屏平板
  • 单片机C51--笔记8-STC89C51RC/RD-IIC协议
  • 太速科技-614-基于6U VPX FPGA VU9P 4路100G、32路10Gbps的光纤卡
  • 力扣第95题 不同的二叉搜索树 II
  • 【WebRTC】Android SDK使用教学
  • 如何使用靜態IP代理?【詳細教程】
  • 云原生周刊:在Docker上部署大语言模型
  • scala 身份证号码
  • hping3-网络工具
  • Brain.js(六):构建FNN神经网络实战教程 - 用户喜好预测
  • 鸿蒙实现后台任务管理
  • 「Mac畅玩鸿蒙与硬件44」UI互动应用篇21 - 随机励志语录生成器
  • Springboot3整合Redis