当前位置: 首页 > article >正文

【RDD算子的分类】RDD的转换算子和触发算子(行为算子)、以及各个算子的作用,对比sql中的关键字

文章目录

    • 1、Tranformation算子:转换算子
    • 2、Action算子:触发算子【行为算子】
    • 3、各个算子的作用,对比sql中的关键字


1、Tranformation算子:转换算子

都是lazy模式的,一般不会触发job的运行,算子返回值一定是RDD

转换算子有哪些:

filter、map、flatMap、union、distinct、groupByKey、reduceByKey、sortBy、sortByKey、repartition、coalesce、keys、values、mapValues、join fullOuterJoin leftOuterJoin rightOuterJoin、 mapPartitions

2、Action算子:触发算子【行为算子】

一定会触发job的运行,返回值一定不是RDD

触发算子有哪些:

collect、count、take、foreach、saveAsTextFile、first、reduce、top、takeOrdered、collectAsMap、foreachPartition、max、min、mean、sum

3、各个算子的作用,对比sql中的关键字

类比SQL处理数据的常见功能,记住常用算子的功能、 语法、场景

  • 过滤数据:where、having => filter
  • 处理数据:字符串函数、日期函数 => map
  • 展开数据:explode => flatMap合并数据:union、join => union join
  • 去重数据:distinct => distinct
  • 分组聚合:group by + 聚合函数 => groupByKey、 reduceByKey
  • 排序数据:order by 、sort by => sortBy、top

http://www.kler.cn/a/381985.html

相关文章:

  • 写给Pythoner的前端进阶指南(五):事件驱动模型
  • 【YashanDB知识库】jdbc查询st_geometry类型的数据时抛出YAS-00101错误
  • 捋一捋相关性运算,以及DTD和NLP中的应用
  • [Xshell] Xshell的下载安装使用、连接linux、 上传文件到linux系统-详解(附下载链接)
  • 单元测试mock框架Mockito
  • 如何解决vscode powershell乱码
  • 【系统架构设计师(第2版)】十一、未来信息综合技术
  • Hearts of Iron IV 之 Archive Modification
  • HTML+javaScript+CSS
  • 【个人记录】screen和tmux
  • “农田奇迹:如何用遥感技术实现作物分类与产量精准估算“
  • Java:获取HttpServletRequest请求参数
  • PostgreSQL 到 PostgreSQL 数据迁移同步
  • 计算机网络——网络层导论
  • 云渲染与汽车CGI图像技术优势和劣势
  • 用 Python 写了一个天天酷跑(附源码)
  • 【docker入门】docker的安装
  • vue3中setup的作用是什么?
  • ELK实现加载多个配置日志文件
  • Jest进阶:测试 Vue 组件
  • WAPI认证过程如何实现?
  • stm32引脚PB3、PB4、PA15作为普通IO口用时,需要先解除调试端口复用
  • 基于SSM+uniapp的营养食谱系统+LW参考示例
  • 【数据结构与算法】LeetCode: 贪心算法
  • 【用Rust写CAD】前言
  • 【MATLAB源码-第208期】基于matlab的改进A*算法和传统A*算法对比仿真;改进点:1.无斜穿障碍物顶点2.删除中间多余节点,减少转折。