当前位置: 首页 > article >正文

spark性能调优 | 默认并行度

Spark Sql默认并行度

看官网,默认并行度200
https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

优化

在数仓中 task最好是cpu的两倍或者3倍(最好是倍数,不要使基数)
拓展

在本地 task需要自己设置,cpu就是local[x]   x就代表cpu数
在yarn --num-executors 2 --executor-cores 2相乘就代表你的cpu个数

根据提交命令

spark-submit \
--master yarn \
--deploy-mode client \
--driver-memory 1g \
--num-executors 2 \
--executor-cores 2 \
--executor-memory 2g \
--queue spark \
--class com.donglin.sparksqltuning.PartitionTuning spark-sql-tuning-1.0-SNAPSHOT-jar-with-dependencies.jar 

去向yarn申请的executor vcore资源个数为4个(num-executors*executor-cores),如果不修改spark sql分区个数,那么就会像上图所展示存在cpu空转的情况。这个时候需要合理控制shuffle分区个数。如果想要让任务运行的最快当然是一个task对应一个vcore,但是数仓一般不会这样设置,为了合理利用资源,一般会将分区(也就是task)设置成vcore的2倍到3倍。
在这里插入图片描述
可以看出,时间快了不少!(这个需要多次调试,找出最优
在这里插入图片描述


http://www.kler.cn/a/132879.html

相关文章:

  • 【Android】EventBus事件总线用法浅析
  • Linux:进程的优先级 进程切换
  • 大模型(LLMs)进阶篇
  • 若点集A=B则A必能恒等变换地变为B=A这一几何常识推翻直线(平面)公理
  • Bugku CTF_Web——No one knows regex better than me
  • 数据结构-哈夫曼树
  • ROS 学习应用篇(七)ROS中的坐标变换管理之tf初探
  • Zabbix5.0部署及应用
  • 教你轻松解决win系统ucrtbased.dll丢失的问题,亲测有效!
  • kafka入门(一):kafka消息消费
  • 若依中脱敏
  • C#WPF文本转语音实例
  • 人工智能发展前景
  • Flutter 应用启动从闪屏页短暂黑屏再到第一个页面
  • 超全整理,Pytest自动化测试框架-多进程(pytest-xdist)运行总结...
  • Web前端—移动Web第一天(平面转换、渐变、综合案例--播客网页设计)
  • 计算机网络八股文
  • 十三、Docker的安装
  • 【刷题专栏—突破思维】LeetCode 138. 随机链表的复制
  • 趣学python编程 (二、计算机硬件和用途介绍)
  • ai语音电销机器人电销行业要怎么降低封号率?
  • Kotlin--1.基础语法
  • 在国内购买GPT服务前的一定要注意!!!
  • git基础命令
  • 【微信公众号】一、获取 access_token
  • .Net(C#)常用转换byte转uint32、byte转float等