RDD触发算子:一些常用的触发算子(count、foreach、saveAsTextFile、first)
文章目录
- 1、count算子
- 功能
- 语法
- 2、foreach算子
- 功能
- 语法
- 3、saveAsTextFile算子
- 功能
- 语法
- 4、first算子
- 功能
- 语法
- 举例
1、count算子
功能
统计RDD集合中元素的个数,返回一个int值
语法
def count(self) -> int
2、foreach算子
功能
对RDD中每个元素调用一次参数中的函数,没有返回值【与map场景上的区别】
语法
def map(self , f: T -> U ) -> None
3、saveAsTextFile算子
功能
用于将RDD的数据保存到外部文件系统中
语法
def saveAsTextFile(self , path ) -> None
4、first算子
功能
返回RDD集合中的第一个元素【RDD有多个分区,返回的是第一个分区的第一个元素】
语法
def first(self) -> T
举例
如何构造sc对象并创建RDD 参考文章:
【Spark中创建RDD的两种方式】Spark中如何获取sc对象、以及创建RDD的两种方式
rdd1 = sc.parallelize([1,2,3,4,5,6,7,8,9],numSlices=3)
print(rdd1.first()) # 输出结果为 1