当前位置: 首页 > article >正文

Spark 并行度

文章目录

  • 1. Spark 并行度
  • 2. Spark 设置并行度
  • 3. 集群中如何规划设置并行度

1. Spark 并行度

Spark的并行计算指的是在同一时间内,有多少个task在同时运行。

并行度:并行能力的设置,比如设置并行度6,其实就是要6个task并行再跑,在有了6个task并行的前提下,rdd的分区就被规划成6个分区了。

2. Spark 设置并行度

代码中配置文件中以及提交程序的客户端参数`中设置

全局并行度配置参数:spark.default.parallelism

优先级从高到低:

  1. 代码中
  2. 客户端提交参数
  3. 配置文件
  4. 默认(默认1,但是不会全部都以1来跑,多数时候基于读取文件的分片数据来作为默认并行度)

实现:

配置文件设置:

# conf/spark-defaults.conf中设置
spark.default.parallelism 100

在客户端提交参数中设置:

bin/spark-submit --conf "spark.default.parallelism=100"

在代码中设置:

conf = SparkConf()
conf.set("spark.default.parallelism", "100")

针对RDD的并行度设置-不推荐

只能在代码中写,算子:repartition算子、coalesce算子、partitionBy算子

3. 集群中如何规划设置并行度

建议设置为CPU总核心的2~10倍
比如集群可用CPU核心是100个,建议并行度设置200~1000
确保是CPU核心的整数倍即可,最小是2倍,最大一般10倍

为什么设置最少2倍?

CPU的一个核心同一时间只能干一件事情。所以,在100个核心的情况下,设置100个并行,就能让CPU 100%出力,但是这种设置下,如果task的压力不均衡,某些task先执行完了,就会导致某个CPU核心的空闲。所以,我们将task(并行)分配的数量变多,比如800个并行,同一时间只有100个在运行,700个在等待,但是可以确保某个task运行完了,后续有task补上,不让cpu闲下来,最大程度利用集群的资源。

规划并行度,只看集群总CPU核数


http://www.kler.cn/a/9335.html

相关文章:

  • 21. Drag-Drop拖放操作(二) - 文件、表格和树的拖放实现
  • 【ChatGPT】 如何让ChatGPT分析数据并得出结论
  • -1大于4?负数与无符号整数类型:size_t的比较问题(strlen)
  • 字符及字符串(ASCII编码系统)
  • 矢量拟合(1)Sanathanan–Koerner算法
  • 系统架构设计师论文
  • docker 安装redis
  • 文档流normal flow
  • Redis - 基础数据类型
  • 签约喜讯 | Smartbi携手金域医学共建统一数据运营平台
  • Dart语言操作符?和!的用法
  • 优思学院|《精益思想》读后感
  • Fork分支代码与主干保持同步
  • ( “树” 之 DFS) 104. 二叉树的最大深度 ——【Leetcode每日一题】
  • 详细介绍别人电脑访问到自己电脑运行的项目
  • linux及docker和postgres SQL常用的一些命令整理
  • 托福高频真词List12 // 附托福TPO阅读真题
  • 【C++】继承---上(继承的引入及使用详解、切片赋值和作用域)
  • Elasticsearch+head+Ik中文分词器的安装以及Go操作Elasticsearch
  • 如何选择适合的企业网站建站方案?
  • 【Linux】基础IO
  • 【微信小程序】-- 自定义组件 - 父子组件之间的通信(三十八)
  • Flutter 生命周期原理
  • Properties
  • ios swift tableView根据数据显示隐藏cell
  • 单机最快的队列Disruptor解析和使用