当前位置: 首页 > article >正文

spark (算子 ) groupBykey+Map 和 reduceBykey 的区别

1)面试题:groupByKey+map和reduceByKey都能实现分布式分组聚合,有什么区别?

- groupByKey没有Map端聚合的操作,只做分组,必须等分区结束才能实现,最终map需要做整体聚合
- reduceByKey是有Map端聚合操作,先分区内部聚合,再做分区间的聚合
- reduceByKey直接分组聚合的性能要高于先做groupByKey再做聚合的方式

2)什么叫做map端的聚合? --类似于MapTask中的Combiner 

combiner  --> map端的reduce操作
container --> yarn中运行任务时的资源管理包
executor  --> spark的app应用在运行时,会产生两个进程,一个Driver,一类executor(执行spark中的job任务的)

Combiner --> 运行在map端的Reduce

 


http://www.kler.cn/a/383252.html

相关文章:

  • HDR视频技术之十一:HEVCH.265 的 HDR 编码方案
  • Pytorch | 从零构建AlexNet对CIFAR10进行分类
  • 【CVE-2024-56145】PHP 漏洞导致 Craft CMS 出现 RCE
  • vue2使用render,js中写html
  • SAP HCM 考勤时间冲突到分 源码分析
  • 【数据安全】如何保证其安全
  • 低代码平台10大经典场景用例展示
  • 雷池社区版7.1新版本自定义NGINX配置分析
  • 服务器被攻击排查记录
  • GO语言的SOLID解析(超详细)
  • 阿里云-防火墙设置不当导致ssh无法连接
  • 计算机网络——路由器构成
  • 期权交易策略 v0.1
  • 大语言模型鼻祖Transformer的模型架构和底层原理
  • 51单片机教程(四)- 点亮LED灯
  • 39页PDF | 华为数据架构建设交流材料(限免下载)
  • 深入理解 Kafka:分布式消息队列的强大力量
  • 推荐一款非常好用的视频编辑软件:Movavi Video Editor Plus
  • 河南建筑装饰工程设计专项资质申请条件
  • 电子电气架构 --- 整车控制系统
  • window10解决 docker is starting 问题
  • 写歌词的技巧和方法基础教程:引领你走进音乐世界,妙笔生词AI智能写歌词软件
  • 2024年华为OD机试真题-boss的收入-C++-OD统一考试(E卷)
  • 3.1、软件需求分析
  • 天锐绿盾加密软件与Ping32数据安全防护对比,为企业提供坚实的保障
  • 学习Vue之商城案例(代码+详解)