当前位置: 首页 > article >正文

Flink流式数据倾斜

 1. 流式数据倾斜

流式处理的数据倾斜和 Spark 的离线或者微批处理都是某一个 SubTask 数据过多这种数据不均匀导致的,但是因为流式处理的特性其中又有些许不同

2. 如何解决

2.1 窗口有界流倾斜

 窗口操作类似Spark的微批处理,直接两阶段聚合的方式来解决就可以

select date,
       type,
       sum(pv) as pv
from(
  select
        date,
        type,
        sum(count) as pv
  from table
        group by
        date,
        type,
        floor(rand()*100) --随机打散成100份 
    )
    group by 
    date,
    type;

2.2 数据本身不均匀

KeyBy 前数据已经不均匀了,可能是Topic 每个分区的数据不一致(较为少见),或者上游task处理以后导致的数据不均匀,导致下游operate chains的某个task压力很大

这种可以加一个随机数 redistributiing 一下之类打散

2.3 keyby类

加盐

开启minibatch 和 global,牺牲时效性,减少输出数据量


http://www.kler.cn/a/232112.html

相关文章:

  • 高级数据结构——hash表与布隆过滤器
  • 微信小程序:vant组件库安装步骤
  • 第9章 DIV+CSS布局作业
  • docker部署bitnami/etcd:latest
  • 『VUE』27. 透传属性与inheritAttrs(详细图文注释)
  • DNS批量解析管理软件有什么用
  • 如何在 Debian 11 上安装 Python 3 并设置编程环境
  • 2023年哪个前端框架用的最多?
  • 计划任务功能优化,应用商店上架软件超过100款,1Panel开源面板v1.9.6发布
  • 华为第二批难题五:AI技术提升六面体网格生成自动化问题
  • 【深度学习:SegGPT】在上下文中分割所有内容 [解释]
  • Stable Diffusion 模型下载:RealCartoon-Pixar - V8
  • [经典问题][AC代码]玉米地(CowFood)
  • C++ STL 教程
  • 【数据分享】1929-2023年全球站点的逐月平均风速(Shp\Excel\免费获取)
  • Java基础常见面试题总结-集合(二)
  • 数据结构 - 线索树
  • 关于 Rust程序设计语言-构建多线程 Web服务器 一章的一些问题
  • 解决CORS错误(Spring Boot)
  • C#静态数组删除数组元素不改变数组长度 vs 动态数组删除数组元素改变数组长度
  • rust嵌入式开发之RTICvsEmbassy
  • 【Langchain Agent研究】SalesGPT项目介绍(一)
  • Qt简易登录界面
  • 【网站项目】031网络游戏公司官方平台
  • H12-821_315
  • leetcode(滑动窗口)483.找到字符中所有字母异位词(C++详细解释)DAY4