Saprk和Flink的区别
1
、设计理念方面
Spark
的技术理念是使用微批来模拟流的计算,基于
Micro-batch
,数据流以时间为单位被切分为一个个 批次,通过分布式数据集RDD
进行批量处理,是一种伪实时。
Flink
是基于事件驱动的,是面向流的处理框架,
Flink
基于每个事件一行一行地流式处理,是真正的流式 计算。另外它也可以基于流来模拟批进行计算实现批处理。
2
、架构方面
Spark
在运行时的主要角色包括:
Master
、
Worker
、
Driver
、
Executor
。
Flink
在运行时主要包含:
Jobmanager
、
Taskmanager
和
Slot
。
3
、流处理方面
Spark
基于微批量处理,把流数据看成是一个个小的批处理数据块分别处理,所以延迟性只能做到秒级。
Flink
基于每个事件处理,每当有新的数据输入都会立刻处理,是真正的流式计算,支持毫秒级计算。 由于相同的原因,Spark
只支持基于时间的窗口操作(处理时间或者事件时间),而
Flink
支持的窗口操 作则非常灵活,不仅支持时间窗口,还支持基于数据本身的窗口(另外还支持基time
、
count、
session,以及
data-driven
的窗口操作),开发者可以自由定义想要的窗口操作。
4
、任务调度方面
Spark Streaming
支持的时间机制有限,只支持处理时间。使用
processing time
模拟
event time
必然会有 误差, 如果产生数据堆积的话,误差则更明显。
Flink
支持三种时间机制:事件时间,注入时间,处理时间,同时支持
watermark
机制处理迟到的数据
, 说明Flink
在处理乱序大实时数据的时候
,
更有优势。
5
、容错机制方面
Spark Streaming
的容错机制是基于
RDD
的容错机制,会将经常用的
RDD
或者对宽依赖加
Checkpoint
。利 用Spark Streaming
的
direct
方式与
Kafka
可以保证数据输入源的,处理过程,输出过程符合
exactly once
。
Flink
则使用两阶段提交协议来保证
exactly once
。
6
、吞吐量与延迟方面
Spark
是基于微批的,而且流水线优化做的很好,所以说他的吞入量是最大的,但是付出了延迟的代 价,它的延迟是秒级;
Flink是基于事件的,消息逐条处理,而且他的容错机制很轻量级,所以他能在兼顾高吞吐量的同时又有 很低的延迟,它的延迟能够达到毫秒级;
7
、迭代计算方面
Spark
对机器学习的支持很好,因为可以在内存中缓存中间计算结果来加速机器学习算法的运行。但是 大部分机器学习算法其实是一个有环的数据流,在Spark
中,却是用无环图来表示。而
Flink
支持在运行 时间中的有环数据流,从而可以更有效的对机器学习算法进行运算。
8
、时间机制方面
Spark Streaming
支持的时间机制有限,只支持处理时间。
Flink
支持了流处理程序在时间上的三个定义:处理时间、事件时间、注入时间。同时也支持
watermark 机制来处理滞后数据。