当前位置: 首页 > article >正文

SparkStreaming集群调优

一、调优

1、数据接收并行度调优

(1)多个Receiver接收Kafka的多个分区,并行地接收数据,进而提升吞吐量

(2)设置spark.streaming.blockInterval,默认是200ms推荐最小50ms,决定每个batch的RDD的分区数

(3)手工重新分区inputStream.repartition(<number of partitions>)

2、任务启动调优

(1)使用Kryo序列化机制来序列化task,可以减小task的大小,从而减少发送这些task到各个Worker节点上的Executor的时间

(2)在Standalone模式下运行Spark,可以达到更少的task启动时间

3、数据处理并行度调优

(1)很多操作都可以指定并行度,也可以调整缺省并行度spark.default.parallelism

4、数据序列化调优

(1)输入数据:默认情况下,接收到的输入数据,是存储在Executor的内存中的,使用的持久化级别是StorageLevel.MEMORY_AND_DISK_SER_2

(2)流式计算操作生成的持久化RDD:流式计算操作生成的RDD的默认持久化级别是StorageLevel.MEMORY_ONLY_SER

(3)使用Kryo时,一定要考虑注册自定义的类,并且禁用对应引用的tracking(spark.kryo.referenceTracking)

5、batch interval调优

(1)batch处理时间必须小于batch interval时间

(2)可以提高处理速度,或增大batch interval

6、内存

(1)如果想要使用一个窗口长度为10分钟的window操作,那么集群就必须有足够的内存来保存10分钟内的数据。

(2)如果想要使用updateStateByKey来维护许多key的state,那么你的内存资源就必须足够大。

(3)DStream的持久化
(4)清理旧数据
(5)CMS垃圾回收器:在spark-submit中使用--driver-java-options设置;使用spark.executor.extraJavaOptions参数设置。-XX:+UseConcMarkSweepGC


http://www.kler.cn/a/473035.html

相关文章:

  • Python中的可变对象与不可变对象;Python中的六大标准数据类型哪些属于可变对象,哪些属于不可变对象
  • Windows11环境下设置MySQL8字符集utf8mb4_unicode_ci
  • 案例解读 | 香港某多元化综合金融企业基础监控+网管平台建设实践
  • 使用python将多个Excel表合并成一个表
  • 代码随想录 链表 test 5
  • 设计模式 行为型 命令模式(Command Pattern)与 常见技术框架应用 解析
  • H2数据库在单元测试中的应用
  • 实时数仓:Apache Iceberg 的表管理与实时数仓架构设计
  • [读书日志]从零开始学习Chisel 第八篇:Scala的集合(敏捷硬件开发语言Chisel与数字系统设计)
  • MySQL error [Warning] InnoDB: Table mysql/innodb_index_stats has length
  • win32汇编环境,怎么进行乘法运算的
  • (一)使用 WebGL 绘制一个简单的点和原理解析
  • 《计算机视觉解锁图像理解密码:编程实现图片场景文字描述生成》
  • Ungoogled Chromium127 编译指南 MacOS篇(七)- 安装依赖包
  • 【郑大主办、ACM出版、EI稳定检索】第四届密码学、网络安全与通信技术国际会议 (CNSCT 2025)
  • 瑞芯微rk3568平台 openwrt系统适配ffmpeg硬件解码(rkmpp)
  • spring cloud alibaba-dubbo3 rpc运行原理
  • 最新版Edge浏览器加载ActiveX控件之Adobe PDF阅读器控件
  • 【MySQL高可用】什么时候分库、分表?怎样进行分库分表?
  • 网络安全 | 网络安全的未来趋势
  • 数智大咖谈 | 志邦家居:智慧家居与智慧管理并驾齐驱
  • select下拉框,首次进入页面没有显示value的情况
  • 如何构建多层决策树
  • c#编写基于ffmpeg的视频裁剪
  • 【VBA】【EXCEL】将某列内容横向粘贴到指定行
  • 点击底部的 tabBar 属于 wx.switchTab 跳转方式,目标页面的 onLoad 不会触发(除非是第一次加载)