大数据之spark算子简介
在 Apache Spark 中,Transformation 和 Action 是两类核心算子,用于定义数据处理逻辑;PairRDDFunctions 提供了对键值对 RDD 的特殊操作;而 File System 处理则涉及与外部存储的交互。下面详细介绍每一部分。
1. Transformation
Transformation 是用于从一个 RDD 创建另一个 RDD 的惰性操作。这意味着它们不会立即执行,只有在有行动算子(Action)调用时才会真正触发计算。
常见的 Transformation 算子包括:
- map(func): 对每个元素应用一个函数,返回一个新的 RDD。
- flatMap(func): 对每个元素应用一个函数,并将结果扁平化为一个新的 RDD。
- filter(func): 过滤不满足函数条件的元素。
- reduceByKey(func): 对键值对 RDD 按键聚合。
- groupByKey(): 对键值对 RDD 按键分组。
- sortByKey(): 对键值对 RDD 按键排序。
- mapValues(func):