当前位置: 首页 > article >正文

【RDD算子的分类】RDD的转换算子和触发算子(行为算子)、以及各个算子的作用,对比sql中的关键字

文章目录

    • 1、Tranformation算子:转换算子
    • 2、Action算子:触发算子【行为算子】
    • 3、各个算子的作用,对比sql中的关键字


1、Tranformation算子:转换算子

都是lazy模式的,一般不会触发job的运行,算子返回值一定是RDD

转换算子有哪些:

filter、map、flatMap、union、distinct、groupByKey、reduceByKey、sortBy、sortByKey、repartition、coalesce、keys、values、mapValues、join fullOuterJoin leftOuterJoin rightOuterJoin、 mapPartitions

2、Action算子:触发算子【行为算子】

一定会触发job的运行,返回值一定不是RDD

触发算子有哪些:

collect、count、take、foreach、saveAsTextFile、first、reduce、top、takeOrdered、collectAsMap、foreachPartition、max、min、mean、sum

3、各个算子的作用,对比sql中的关键字

类比SQL处理数据的常见功能,记住常用算子的功能、 语法、场景

  • 过滤数据:where、having => filter
  • 处理数据:字符串函数、日期函数 => map
  • 展开数据:explode => flatMap合并数据:union、join => union join
  • 去重数据:distinct => distinct
  • 分组聚合:group by + 聚合函数 => groupByKey、 reduceByKey
  • 排序数据:order by 、sort by => sortBy、top

http://www.kler.cn/a/381985.html

相关文章:

  • 为什么越来越多人开始用云电脑?网友道出了真相
  • 算法: 链表题目练习
  • 基于SSM社区便民服务管理系统JAVA|VUE|Springboot计算机毕业设计源代码+数据库+LW文档+开题报告+答辩稿+部署教+代码讲解
  • DCRNN解读(论文+代码)
  • CAN总线学习笔记(1、CAN总线定义)
  • 【设计模式系列】组合模式(十二)
  • 【系统架构设计师(第2版)】十一、未来信息综合技术
  • Hearts of Iron IV 之 Archive Modification
  • HTML+javaScript+CSS
  • 【个人记录】screen和tmux
  • “农田奇迹:如何用遥感技术实现作物分类与产量精准估算“
  • Java:获取HttpServletRequest请求参数
  • PostgreSQL 到 PostgreSQL 数据迁移同步
  • 计算机网络——网络层导论
  • 云渲染与汽车CGI图像技术优势和劣势
  • 用 Python 写了一个天天酷跑(附源码)
  • 【docker入门】docker的安装
  • vue3中setup的作用是什么?
  • ELK实现加载多个配置日志文件
  • Jest进阶:测试 Vue 组件
  • WAPI认证过程如何实现?
  • stm32引脚PB3、PB4、PA15作为普通IO口用时,需要先解除调试端口复用
  • 基于SSM+uniapp的营养食谱系统+LW参考示例
  • 【数据结构与算法】LeetCode: 贪心算法
  • 【用Rust写CAD】前言
  • 【MATLAB源码-第208期】基于matlab的改进A*算法和传统A*算法对比仿真;改进点:1.无斜穿障碍物顶点2.删除中间多余节点,减少转折。