当前位置: 首页 > article >正文

阅文集团大数据面试题及参考答案

介绍下 Flink 的 watermark (水位线),watermark 需要实现哪个接口,在何处定义以及有什么作用?

在 Flink 中,watermark 是一种用于处理乱序事件时间的机制 。

实现接口:通常需要实现 AssignerWithPeriodicWatermarks 或 AssignerWithPunctuatedWatermarks 接口。前者会周期性地生成 watermark,后者则是基于某些特定事件来生成 watermark ,比如接收到某个特定值的消息时。

定义位置:可以在数据源处或者在流处理的中间操作中定义 watermark。在数据源定义时,能更精准地根据数据的产生特性设置 watermark;在中间操作定义则可以根据前面算子的处理情况灵活调整。

作用:一是处理乱序数据,在分布式流处理中,数据可能因网络延迟等原因导致乱序到达。Watermark 提供了一种衡量事件时间进展的方式,让 Flink 可以在一定程度上等待迟到的数据,以获取更完整的结果。例如,一个电商网站的订单数据,可能因为网络问题,下单时间靠后的订单数据先到达,watermark 可以帮助系统等待一定时间以获取更完整的订单数据序列。二是触发窗口计算,当 waterm


http://www.kler.cn/a/418839.html

相关文章:

  • 在 Ubuntu 20.04 上使用 Lux 下载 Bilibili 视频的详细教程
  • 认识redis 及 Ubuntu安装redis
  • Git忽略文件
  • 本地部署 WireGuard 无需公网 IP 实现异地组网
  • Linux:文件系统inode
  • 【RabbitMQ 消息列队测试之:调试技巧】
  • qt 的udp发送和接收
  • Vue SSR基础介绍与实践
  • Pycharm使用Jupyterlab报错:Jupyter command `jupyter-notebook` not found
  • 计算机毕业设计Python深度学习游戏推荐系统 Django PySpark游戏可视化 游戏数据分析 游戏爬虫 Scrapy 机器学习 人工智能 大数据毕设
  • AI 编译器学习笔记之十三 -- Pytorch 特性实现
  • [golang][MAC]Go环境搭建+VsCode配置
  • 设计模式学习[10]---迪米特法则+外观模式
  • mrRobot解题过程
  • 基于自编码器的深度回归模型:原理、实现与分析
  • Cause: java.sql.SQLException: No value specified for parameter 4
  • 【机器学习】梯度消失和梯度爆炸问题
  • pytorch中一个tensor经过多次softmax会有什么变化?
  • 【Linux课程学习】:《简易版shell实现和原理》 《哪些命令可以让子进程执行,哪些命令让shell执行(内键命令)?为什么?》
  • Matlab Simulink HDL Coder开发流程(一)— 创建HDL兼容的Simulink模型
  • 未来已来!联想推出汽车智能空间解决方案
  • PWN的简单了解
  • 逆向攻防世界CTF系列42-reverse_re3
  • 论文解读:Reward criteria impact on the performance ofreinforcement learning...
  • Hbase2.2.7集群部署
  • 阿里云CPU过载的一点思考