当前位置: 首页 > article >正文

31、spark-on-kubernetes中任务报错No space left on device

前提:我的spark版本为2.4.5, spark-operator版本为:v1beta2-1.0.0-2.4.5
spark任务在shuffle过程中会将一些中间数据放入当前executor的磁盘下。而我们的任务运行在华为云的CCI服务上(一个k8s serverless集群服务)。
这个场景下,spark.local.dir的默认目录(/var/data/spark-{UUID})是以emptydir挂载卷的方式挂载的,大小默认40g。而且当前这个operator版本还调整不了这个大小。对应一些作业来说,这个大小不够,任务就会抛出磁盘容器不足异常。
在这里插入图片描述
最终的解决办法,在spark.local.dir参数里配置多个目录,eg:spark.local.dir: ‘/data1,/data2,/data3’。这样它每个目录都会挂载一个emptydir卷,每个40g大小。不过遇到数据倾斜会导致某个目录磁盘还是不够。但是现在暂时这样了,数据倾斜情况下再处理数据倾斜吧。
在这里插入图片描述
也在考虑使用开源的RSS(remote shuffle service)服务,是否符合当前情况,投入和收益是否合理


http://www.kler.cn/a/540792.html

相关文章:

  • java和vue开发的图书馆借阅管理系统小程序
  • 大模型中设计的精度(FP8,FP16,FP32,混合精度训练,精度量化)相关总结
  • 【算法】【高精度】acwing算法基础 794. 高精度除法
  • postgresql 游标(cursor)的使用
  • 四次挥手详解
  • Vue与Konva:解锁Canvas绘图的无限可能
  • Fastadmin根据链接参数显示不同列表格
  • 10 FastAPI 的自动文档
  • OpenAI 实战进阶教程 - 第十二节 : 多模态任务开发(文本、图像、音频)
  • 持续集成-笔记
  • DeepSeek之于心理学的一点思考
  • Java中有100万个对象,用list map泛型存储和用list对象泛型存储,那个占用空间大,为什么...
  • python两段多线程的例子
  • 网络安全架构分层 网络安全组织架构
  • 什么是蒸馏大型语言模型
  • WiFi配网流程—SmartConfig 配网流程
  • 基于uniapp vue3 的滑动抢单组件
  • Markdown+Vscode+Mindmaster打造读书笔记
  • C# Mutex 锁 使用详解
  • 爬虫案例-爬取某度文档利用飞桨ch_pp-ocrv3模型提高对图片的识别
  • [小白入门]PostgreSQL too many clients already
  • 轻松掌握:滤波器截止频率计算
  • 蓝桥杯C语言组:博弈问题
  • PL/SQL语言的云计算
  • C# COM 组件在.NET 平台上的编程介绍
  • qml ToolBar详解