当前位置：首页 > article >正文

【Flink实战】Flink网络内存和托管内存

article 2025/2/22 21:15:12

文章目录

一、网络内存与托管内存
- 1. 网络内存
- - 1.1. 网络内存的主要作用
  - 1.2. 网络内存配置项
- 2. 托管内存
二、网络内存与托管内存的关系
- 1 、互相依赖，优化执行性能
- 2、基于任务特性设置内存分配
- 3、内存竞争与背压机制

网络内存主要负责Taskmanager之间的网络数据传输的内存，托管内存主要负责Flink的状态计算，比如window等操作。

一、网络内存与托管内存

1. 网络内存

网络内存：主要用于 任务间（不同的Taskmanager之间）的数据交换，特别是在 shuffle、连接（join） 和 聚合（aggregation） 等操作中。

数据进行网络传输时，需要用到网络内存进行缓冲。网络内存的大小决定了数据传输过程中可缓冲的数据量。如果网络内存不足，数据可能会被写入磁盘，影响性能。

1.1. 网络内存的主要作用

缓冲任务间数据
Flink 在任务执行过程中需要频繁地进行数据交换，例如 Shuffle 操作、窗口操作等。网络内存提供了缓冲区来暂时存储数据，等待数据传输到下游任务。在没有足够的网络内存时，数据可能会被迫写入磁盘，导致性能下降。
支持数据 Shuffle
Shuffle 操作是 Flink 中的一项核心操作，常见于流处理中的 repartition、join 或 group-by 等场景。数据通过网络从一个任务节点传输到另一个任务节点。在这个过程中，网络内存负责存储这些中间结果，避免了数据直接写入磁盘，提升了任务执行效率。
提高数据传输效率
网络内存通过缓存传输中的数据，减少了频繁的磁盘 I/O 操作，从而提高了任务之间数据传输的速度。在高吞吐量的数据流处理应用中，减少 I/O 操作是提升性能的关键。
减少垃圾回收压力
在 Flink 中，频繁的垃圾回收可能会导致任务停顿，影响作业的稳定性和实时性。通过合理配置网络内存，可以减少内存的分配和回收次数，缓解垃圾回收带来的性能瓶颈。
支撑背压机制（Backpressure）
在高并发环境下，上游任务的速度可能超过下游任务的处理能力，这时 Flink 的背压机制会启动，流控下游任务的数据流速。背压机制依赖于网络内存的配置，以确保系统不会因数据流量过大而崩溃。

1.2. 网络内存配置项

具体代码位置：
org.apache.flink.configuration.NettyShuffleEnvironmentOptions

Flink 提供了一些配置项，用来调整和优化网络内存的使用。以下是几个常见的配置项及其作用：

taskmanager.network.memory.fraction
该配置项指定 TaskManager 可用内存的比例，用于网络操作。默认值是 0.1，即 Flink 会将 TaskManager 总内存的 10% 分配给网络内存。可以根据作业的规模和资源需求调整这个比例。
```
taskmanager.network.memory.fraction: 0.2  # 设置为 20%，适用于高并发、高吞吐量的作业
```
taskmanager.network.memory.min
该配置项指定网络内存的最小值，确保无论 TaskManager 内存大小如何，都会为网络内存预留一定的空间。可以防止在内存资源较紧张时，网络内存不足导致的数据传输问题。
```
taskmanager.network.memory.min: 256mb  # 最小网络内存为 256MB
```
taskmanager.network.memory.max
该配置项控制网络内存的最大值，确保不会因为网络内存过大导致其他任务操作内存不足。设置合理的上限可以避免因内存过度占用而导致的内存溢出问题。
```
taskmanager.network.memory.max: 4gb  # 最大网络内存为 4GB
```
taskmanager.network.buffer-size
该配置项控制每个网络缓冲区的大小。缓冲区大小直接影响数据传输的效率。较大的缓冲区可以减少网络传输次数，但可能会增加内存占用。需要根据实际情况进行调整。
```
taskmanager.network.buffer-size: 32kb  # 每个缓冲区大小为 32KB
```
taskmanager.network.request.timeout
设置网络请求的超时时间，单位为毫秒。此配置项决定了 Flink 在数据传输过程中等待响应的最长时间。如果超时，任务可能会失败或出现错误。
```
taskmanager.network.request.timeout: 600000  # 网络请求超时时间为 10 分钟
```

2. 托管内存

托管内存的主要目的是为 计算和状态存储 提供内存资源：主要用于 算子状态存储 和计算，尤其是在 状态操作（如窗口、状态）中，管理任务的内部状态。

托管内存由 Flink 管理，通常是堆外内存，用于存储作业的 算子状态（例如，窗口计算的中间结果、流处理的状态等）。它减少了堆内存的使用，防止频繁的垃圾回收，提高作业的稳定性。

二、网络内存与托管内存的关系

1 、互相依赖，优化执行性能

状态管理与数据交换的平衡：作业的执行通常包含两部分内容：计算和数据交换。

例如，当进行一个 window 操作时，状态会被托管内存存储，而在完成数据交换时，数据则需要通过网络内存进行缓冲。这两部分内存在作业的不同阶段发挥着不同的作用。
再比如：在一个 join 操作 中，数据会先通过网络内存传输，之后，可能会在下游任务中进行状态存储和计算，这时就需要使用托管内存。

内存溢出风险的平衡：

过多地将内存分配给其中一部分（例如，网络内存）而忽略了另一部分（托管内存）可能导致内存资源的浪费或者性能瓶颈。