当前位置: 首页 > article >正文

实时数据研发|Flink关键概念,什么是无界、有界数据集,流、批?

Flink 把流计算框架可能处理的数据集分为如下两种。

  • 无界数据集(unbounded dataset):无界数据集通常是持续不断产生的,就像河水一样不停流人。现实世界中的许多数据都是无界的数据集,比如电子商务交易日志、网站点击日志等。
  • 有界数据集(bounded dataset):有界的数据集通常是批次的,考虑Hadoop、MapReduce 处理的文件。

对应上述两种数据集,就有两种数据处理模型。

  • 流处理:流处理任务就是常说的实时任务,任务一直运行,持续不断地处理流入的无界的数据集。(持续不停地占用计算和内存资源)
  • 批处理:批处理任务对于自己要处理的有界数据集非常明确,处理完该数据集后就会释放有关计算和内存资源

Flink底层用流处理模型来同时处理上述两种数据。在Flink看来,有界数据集不过是无界数据集的一种特例;而Spark Streaming走了完全相反的技术路线,它把无界数据集分割成有界数据集再通过微批对待流计算。

同spak sueaming、storm 等流计算引擎一样,Flink的数据处理组件也被分为三类:
数据输人(souree)、数据处理(transformation)和数据输出(sink)。

Flink 程序实际执行时,会映射到流数据流(streaming dataflow)。streaming dataflow由转换算符构成,每个数据流起始于一个或多个source,并终止于一个或多个 sink,整个数据流类似于任意的有向无环图(DAG)。并且是并行的。

数据流在两个transformation间传输数据有两种方式:

  • 一对一流 :保持元素间分区和排序;
  • redistribution流:改变流的分区。一次交换中,排序只保留在每对发送与接收子任务中。

Flink中时间:

  • 事件时间event time:事件中时间戳;
  • 采集时间 ingest time :事件进入数据流源算符的事件;
  • 处理时间process time:每个执行时间操作的运算符的本地时间。

http://www.kler.cn/a/408636.html

相关文章:

  • 数据结构-位运算笔记
  • CSS3新特性——字体图标、2D、3D变换、过渡、动画、多列布局
  • 人脸检测开源项目介绍【持续更新】
  • vue实现滚动下拉加载更多
  • 11 —— 打包模式的应用
  • <硬件有关> 内存攒机认知入门,内存的选择 配置 laptop PC 服务器
  • 设计模式之 解释器模式
  • 什么是ROS参数服务器
  • 用Python“拍立淘”:在1688的海洋里寻找宝藏
  • 第 31 章 - Go语言安全性实践
  • 河道水位流量一体化自动监测系统:航运安全的护航使者
  • Git Clone大文件+子模块的方式
  • ES八股相关知识
  • React(六)——Redux
  • 核心差异:知识VS文档管理(+工具软件安利)
  • USRP:B205mini-i
  • 单片机入门
  • 【WRF-Urban】多层建筑能源参数化模型概述:原理
  • 信创改造 - TongRDS 安装方式之控制台安装【Window】
  • OmniDiskSweeper :一款专为 macOS 设计的磁盘使用分析工具
  • Go 语言开发工具
  • 图像处理实验报告
  • 数据结构与算法学习笔记----链表
  • 《深入浅出HTTPS​​​​​​​​​​》读书笔记(10):流密码算法
  • 【5】STM32·FreeRTOS·临界段保护与调度器挂起
  • TCP三次握手的过程是怎样的?