当前位置：首页 > article >正文

Spark 并行度

article 2025/2/22 16:33:30

文章目录

1. Spark 并行度
2. Spark 设置并行度
3. 集群中如何规划设置并行度

1. Spark 并行度

Spark的并行计算指的是在同一时间内，有多少个task在同时运行。

并行度：并行能力的设置，比如设置并行度6，其实就是要6个task并行再跑，在有了6个task并行的前提下，rdd的分区就被规划成6个分区了。

2. Spark 设置并行度

在代码中和配置文件中以及提交程序的客户端参数`中设置

全局并行度配置参数：spark.default.parallelism

优先级从高到低：

代码中
客户端提交参数
配置文件
默认（默认1，但是不会全部都以1来跑，多数时候基于读取文件的分片数据来作为默认并行度）

实现：

配置文件设置：

# conf/spark-defaults.conf中设置
spark.default.parallelism 100

在客户端提交参数中设置：

bin/spark-submit --conf "spark.default.parallelism=100"

在代码中设置：

conf = SparkConf()
conf.set("spark.default.parallelism", "100")

针对RDD的并行度设置-不推荐

只能在代码中写，算子：repartition算子、coalesce算子、partitionBy算子

3. 集群中如何规划设置并行度

建议：设置为CPU总核心的2~10倍
比如集群可用CPU核心是100个，建议并行度设置200~1000
确保是CPU核心的整数倍即可，最小是2倍，最大一般10倍

为什么设置最少2倍？

CPU的一个核心同一时间只能干一件事情。所以，在100个核心的情况下，设置100个并行，就能让CPU 100%出力，但是这种设置下，如果task的压力不均衡，某些task先执行完了，就会导致某个CPU核心的空闲。所以，我们将task（并行）分配的数量变多，比如800个并行，同一时间只有100个在运行，700个在等待，但是可以确保某个task运行完了，后续有task补上，不让cpu闲下来，最大程度利用集群的资源。

规划并行度，只看集群总CPU核数

查看全文

http://www.kler.cn/a/9335.html