Spark 并行度
文章目录
- 1. Spark 并行度
- 2. Spark 设置并行度
- 3. 集群中如何规划设置并行度
1. Spark 并行度
Spark的并行计算指的是在同一时间内,有多少个task在同时运行。
并行度
:并行能力的设置,比如设置并行度6,其实就是要6个task并行再跑,在有了6个task并行的前提下,rdd的分区就被规划成6个分区了。
2. Spark 设置并行度
在代码中
和配置文件中以及
提交程序的客户端参数`中设置
全局并行度配置参数:spark.default.parallelism
优先级从高到低:
- 代码中
- 客户端提交参数
- 配置文件
- 默认(默认1,但是不会全部都以1来跑,多数时候基于读取文件的分片数据来作为默认并行度)
实现:
配置文件设置:
# conf/spark-defaults.conf中设置
spark.default.parallelism 100
在客户端提交参数中设置:
bin/spark-submit --conf "spark.default.parallelism=100"
在代码中设置:
conf = SparkConf()
conf.set("spark.default.parallelism", "100")
针对RDD的并行度设置-不推荐
只能在代码中写,算子:repartition算子、coalesce算子、partitionBy算子
3. 集群中如何规划设置并行度
建议:设置为CPU总核心的2~10倍
比如集群可用CPU核心是100个,建议并行度设置200~1000
确保是CPU核心的整数倍即可,最小是2倍,最大一般10倍
为什么设置最少2倍?
CPU的一个核心同一时间只能干一件事情。所以,在100个核心的情况下,设置100个并行,就能让CPU 100%出力,但是这种设置下,如果task的压力不均衡,某些task先执行完了,就会导致某个CPU核心的空闲。所以,我们将task(并行)分配的数量变多,比如800个并行,同一时间只有100个在运行,700个在等待,但是可以确保某个task运行完了,后续有task补上,不让cpu闲下来,最大程度利用集群的资源。
规划并行度,只看集群总CPU核数