当前位置: 首页 > article >正文

spark.default.parallelism 在什么时候起作用,与spark.sql.shuffle.partitions有什么异同点?

spark.default.parallelismspark.sql.shuffle.partitions 是 Spark 中两个控制并行度的配置参数,但它们作用的场景和用途不同:

spark.default.parallelism

  • 用途spark.default.parallelism 用于控制 RDD 中的默认分区数。
  • 适用场景:在使用 SparkContext.parallelize 或者执行非 Shuffle 类操作(例如 mapfilter)创建 RDD 时,如果未显式指定分区数,那么 Spark 会用 spark.default.parallelism 的值作为分区数量。
  • 默认值:通常,spark.default.parallelism 会根据集群中的 CPU 核心数来决定,通常是 SparkContext.defaultParallelism 的 2 倍,即每个核对应 2 个分区。
  • 作用时间:主要影响非 Spark SQL 操作的 RDD,并在无指定分区数时起作用。

spark.sql.shuffle.partitions

  • 用途spark.sql.shuffle.partitions 用于控制 Spark SQL 查询中 Shuffle 阶段的分区数。
  • 适用场景:在执行 Spark SQL 或 DataFrame API 操作时(如 groupByjoinorderBy 等涉及 Shuffle 的操作),Spark 会依据 spark.sql.shuffle.partitions 的值来决定 Shuffle 阶段的分区数量。
  • 默认值:该参数的默认值是 200,但可以根据数据规模、集群资源等进行调整,以优化性能。
  • 作用时间:此参数仅影响 Spark SQL 的 Shuffle 操作,与 RDD 操作无关。

异同点总结

  • 异同
    • spark.default.parallelism 主要影响 RDD 的初始并行度,而 spark.sql.shuffle.partitions 则专门控制 Spark SQL 中的 Shuffle 分区数。
    • 前者在非 SQL 的 RDD 操作中起作用,后者则仅对 SQL 或 DataFrame API 中的 Shuffle 操作生效。
  • 配置建议
    • 如果以 RDD 为主,则可以根据集群大小和任务负载调整 spark.default.parallelism
    • 如果以 SQL 和 DataFrame 操作为主,特别是需要进行大量 Shuffle 的场景,可以适当调整 spark.sql.shuffle.partitions 来优化性能(如减少分区数以降低小任务开销,或增加分区数以加快数据处理速度)。

http://www.kler.cn/a/394577.html

相关文章:

  • Wend看源码-Java-fork/Join并行执行任务框架学习
  • 【AI学习】Transformer深入学习(二):从MHA、MQA、GQA到MLA
  • 个人健康信息系统|Java|SSM|VUE| 前后端分离
  • 【保姆级】sql注入之堆叠注入
  • HackMyVM-Airbind靶机的测试报告
  • 微信小程序获取后端数据
  • LaTeX中浮动体(图片、表格)的位置及上下间距设置
  • 使用命令强制给ESXI上的硬盘分区
  • Grafana Username password invalid
  • JavaScript的展开运算符在React中的应用
  • 游戏引擎学习第11天
  • 软件测试计划和测试用例详解
  • 鸿蒙学习生态应用开发能力全景图-鸿蒙生态伙伴 SDK 市场(4)
  • 家政服务平台管理系统(源码+文档+部署+讲解)
  • Sql进阶:字段中包含CSV,如何通过Sql解析CSV成多行多列?
  • 【数据结构】顺序表解析及实战运用
  • 【Redis实战篇】利用布隆过滤器解决缓存穿透问题
  • 力扣题目解析--合并两个链表
  • SystemVerilog学习笔记(十一):接口
  • 相机光学(四十)——2x2 Adjacent Pixel Binning
  • 小程序开发者工具的network选项卡中有某域名的接口请求,但是在charles中抓不到该接口
  • Python图像识别详解
  • STL学习-排序算法
  • Python-requests模块详解!
  • 威联通Docker Compose搭建NAS媒体库资源工具NAS Tools
  • C++单例模式实现