当前位置：首页 > article >正文

Flink如何设置合理的并行度

article 2025/3/1 10:08:06

一个Flink程序由多个Operator组成(source、transformation和 sink)。

一个Operator由多个并行的Task(线程)来执行，一个Operator的并行Task(线程)数目就被称为该Operator(任务)的并行度(Parallel)。即并行度就是相对于Operator来说的。

合理设置并行度可以有效提高Flink作业的性能，但并行度的设置需要根据souce、sink类别、数据量、任务复杂度、集群资源等多个因素综合考虑。下面我们也是从source、transformation和sink来考虑一些优化措施：

1. Kafka Source和Sink的并行度设置

对于Kafka，不管是作为source还是sink，我们都建议将其并行度设置为和Kafka Topic分区数一致，这样每个subtask都能处理一个分区的数据。设置并行度小于Topic分区数则有subtask会读取多个分区数据，有可能会导致数据积压；而设置大于Topic分区数，会导致有subtask不能接收到数据，一是浪费并行度资源，另一方面如果用到watermark，则导致无法产生watermark的问题，影响下游的计算。如果已经等于Kafka的分区数，消费速度仍跟不上数据生产速度，考虑下Kafka要扩大分区，同时调大并行度等于分区数。如果kafka数据量很小，则可以直接设置为1。