当前位置：首页 > article >正文

spark数据倾斜的解决思路

article 2025/3/13 13:01:33

在这里插入图片描述
数据倾斜是：多个分区中，某个分区的数据比其他分区的数据多的多

数据倾斜导致的问题：

导致某个spark任务耗时较长，导致整个任务耗时增加，甚至出现OOM
运行速度慢：主要发生在shuffle阶段，同样的key的数据太多了，导致了某个key所在的task需要处理的数据量太大了，远超其他的task的处理时间
一条经验：一般出现运行速度异常慢，或者OOM的主要原因是数据倾斜

数据倾斜的解决方案：

过滤不需要的key：有些key是脏数据，直接过滤，降低数据量
调整并行度：增大partition的数量，这个每个task要处理的数据量就降低了，各个key可以均匀的分配到多个partition中。但是如果某个key的数据量就是很多，还是会出现数据倾斜
将reduce侧的join转化为map侧join：如用reduceBykey来替换groupByKey，让map侧也发生aggr聚合，减少shuffle的数据量
随机前缀扩容：如果某个key就是很多，在此key之前加随机数，来打散key,然后聚合
如果在加载数据时就发生了数据倾斜，可以在加载后进行repartition
对于join数据倾斜，一般是小表join大表，用map join ,避免reduce join（shuffle join）
总结：一般在shuffle时容易发生数据倾斜，因此主要思路是降低shuffle的量

spark的map join 和reduce join的区别？

都是将2个数据集进行join连接的操作，但是实现方式不同

map join：小表join 大表，将小表通过广播的方式，广播到所有excutors节点的内存中，然后在每个excutor节点上将大数据和小数据进行连接，这样可以快速连接，从而提高了join的效率；优点：由于将小数据加载到内存中，join的速度很快；缺点：由于数据会加载到内存中，会导致内存溢出的问题。
reduce join : 大表join大表，将2个数据集都进行分区，然后将相同的key的数据分发到同一个节点上进行连接操作。因为同一个key的数据被分发到同一个节点上，所以每个节点只需要处理一部分数据，从而减少了每个节点需要处理的数据量，提高了join的效率；优点：通过分布式的方式能够处理大数据集；缺点：需要进行shuffle网络传输，如果传输速度较慢，可能会导致连接操作的效率较低。

http://www.kler.cn/a/144451.html

相关文章：

【Range Image】创建Range Image

05_使用API_Arrays与Lambda

发送一个网络数据包的过程解析

Unity中Shader的Standard材质解析（一）

开发者的 Debian 12 KDE 配置优化指南

聚类笔记：HDBSCAN

【ARM CoreLink 系列 3.1 -- CCI-500 详细介绍 -上半部】

从裸机启动开始运行一个C++程序（十三）

【自主探索】基于 rrt_exploration 的单个机器人自主探索建图

【人生苦短，我学 Python】（2）Python 语言基础

0003Java程序设计-ssm基于微信小程序的家教信息管理系统

【洛谷 P1636】Einstein学画画题解（图论+欧拉通路）

STM32通用定时器产生PWM信号

Oracle SQL 注入上的 Django GIS 函数和聚合漏洞（CVE-2020-9402）

ElasticSearch查询语法及深度分页问题

C语言指针

C++类与对象(6)—初始化列表、explicit关键字、static成员

日历视图，轻松解决时间管理难题丨三叠云

A. Weird Sum - 思维

【AI认证笔记】NO.2人工智能的发展