当前位置：首页 > article >正文

Flink流式数据倾斜

article 2025/1/22 15:05:32

1. 流式数据倾斜

流式处理的数据倾斜和 Spark 的离线或者微批处理都是某一个 SubTask 数据过多这种数据不均匀导致的，但是因为流式处理的特性其中又有些许不同

2. 如何解决

2.1 窗口有界流倾斜

窗口操作类似Spark的微批处理，直接两阶段聚合的方式来解决就可以

select date,
       type,
       sum(pv) as pv
from(
  select
        date,
        type,
        sum(count) as pv
  from table
        group by
        date,
        type,
        floor(rand()*100) --随机打散成100份 
    )
    group by 
    date,
    type;

2.2 数据本身不均匀

KeyBy 前数据已经不均匀了，可能是Topic 每个分区的数据不一致（较为少见），或者上游task处理以后导致的数据不均匀，导致下游operate chains的某个task压力很大

这种可以加一个随机数 redistributiing 一下之类打散

2.3 keyby类

加盐

开启minibatch 和 global，牺牲时效性，减少输出数据量

http://www.kler.cn/a/232112.html

相关文章：

阿里云 Serverless 助力盟主直播：高并发下的稳定性和成本优化

多级缓存 JVM进程缓存

无人机高速无刷动力电机核心设计技术

大模型GUI系列论文阅读 DAY2续：《一个具备规划、长上下文理解和程序合成能力的真实世界Web代理》

编辑器Vim基本模式和指令 --【Linux基础开发工具】

MySQL 篇 - Java 连接 MySQL 数据库并实现数据交互

如何在 Debian 11 上安装 Python 3 并设置编程环境

2023年哪个前端框架用的最多?

计划任务功能优化，应用商店上架软件超过100款，1Panel开源面板v1.9.6发布

华为第二批难题五：AI技术提升六面体网格生成自动化问题

【深度学习：SegGPT】在上下文中分割所有内容 [解释]

Stable Diffusion 模型下载：RealCartoon-Pixar - V8

[经典问题][AC代码]玉米地（CowFood）

C++ STL 教程

【数据分享】1929-2023年全球站点的逐月平均风速（Shp\Excel\免费获取）

Java基础常见面试题总结-集合（二）

数据结构 - 线索树

关于 Rust程序设计语言-构建多线程 Web服务器一章的一些问题

解决CORS错误（Spring Boot）

C#静态数组删除数组元素不改变数组长度 vs 动态数组删除数组元素改变数组长度

rust嵌入式开发之RTICvsEmbassy

【Langchain Agent研究】SalesGPT项目介绍（一）

Qt简易登录界面

【网站项目】031网络游戏公司官方平台

H12-821_315

leetcode（滑动窗口）483.找到字符中所有字母异位词（C++详细解释）DAY4