当前位置: 首页 > article >正文

Flink如何处理迟到数据?

        在flink中进行窗口计算时,由于乱序流数据的问题,往往会出现迟到数据,迟到数据未参与所属窗口的计算会对计算结果的准确性产生影响,对此,Flink有如下三种方法来保障结果的准确性。

(1)水位线的延迟

        对于乱序流数据,水位线可以设置延迟 Flink的Watermark水位线详解-CSDN博客,但一般不宜将延迟时间设置的过大,否则流处理的实时性将会大大降低。因此还是会有迟到数据。

(2)窗口允许处理迟到数据

        当水位线到达窗口结束时间时,默认窗口会关闭,之后来的数据就会被丢弃了,因此可以延迟窗口的关闭时间。具体而言:在设置了水位线延迟的基础上,大部分的迟到数据已经能够被正确处理了,因此水位线到达窗口结束时间时,先触发计算,得到一个近似正确的结果,但窗口不会关闭,之后每来一个迟到数据,就再触发窗口计算,不断修正计算结果并输出。这就类似lambda架构。可以通过对windowedStream(对datastream调用window分配窗口后就是windowedStream)调用allowedLateness方法设置等待时间。

(3)迟到数据放入窗口侧输出流

        即使有了上述的双重保障,但由于窗口不能一直等待,总会关闭,最终还是可能会有丢失数据,这时候该怎么办呢?Flink还提供了一种解决方法:将窗口关闭之后到来的迟到数据收集到侧输出流,保证数据不丢失。之后获取侧输出流中的数据,判断所属窗口,手动对结果进行更行,保证最终结果一定时正确的。

        具体实现时对windowedStream调用sideOutoutLateData()方法,传入一个输出标签OutputTag用来标记是迟到数据流即可。基于窗口处理完成之后的datastream调用getSideOutput方法,传入对应的OutputTag即可获取迟到数据流进行后续处理。


http://www.kler.cn/a/459474.html

相关文章:

  • 人脑处理信息的速度与效率:超越计算机的直观判断能力
  • centos,789使用mamba快速安装R及语言包devtools
  • 人工智能:变革时代的核心驱动力
  • LinuxC高级day2
  • 常见端口(22、25、53、80、443、110、143、3306、6379、21)和服务的安装与配置手册
  • 【深度学习基础之多尺度特征提取】图像金字塔(Image Pyramid)是如何在深度学习网络中提取多尺度特征的?附代码
  • Python毕业设计选题:基于Hadoop 的国产电影数据分析与可视化_django+spider
  • C++ 函数式编程Lambda表达式
  • 磁编码器(Magnetic Encoder)
  • 【每日学点鸿蒙知识】Web嵌套滚动体验、拷贝传递 ArrayBuffer异常问题、ObjectLink 的属性传递、构建读取参数
  • 【高阶数据结构】红黑树封装map、set
  • leetcode hot100 tire前缀树
  • go语言中zero框架项目日志收集与配置
  • 【2024年-7月-6日-开源社区openEuler实践记录】探秘 Qingzhou:开启高效开发与运维新旅程
  • 012-spring的注解开发、bean的属性、IOC实现原理
  • 【服务器】上传文件到服务器并训练深度学习模型下载服务器文件到本地
  • 基于GA遗传优化TCN-LSTM时间卷积神经网络时间序列预测算法matlab仿真
  • EL表达式与JSTL
  • Quo Vadis, Anomaly Detection? LLMs and VLMs in the Spotlight 论文阅读
  • Java基础(三):桌球案例
  • Qt https请求报错SSL handshake failed 解决思路方法
  • AI大模型-提示工程学习笔记0
  • 进程通信(8)读写锁
  • LabVIEW手部运动机能实验系统
  • 使用工厂+策略模式实现去除繁琐的if else
  • 菲尼克斯超级工厂落地南京,汽车市场被瞄准