大数据面试题每日练习 -- 解释RDD的概念
RDD(Resilient Distributed Datasets)是Spark中的核心数据结构,是一个不可变的、分区的数据集合,可以并行操作。RDD的主要特性包括:
- 不可变性:RDD一旦创建,其内容不能被修改。如果需要修改RDD,需要创建一个新的RDD。
- 分区性:RDD中的数据被划分为多个分区,每个分区可以独立并行处理。
- 懒惰计算:RDD的操作分为Transformation(转换)和Action(动作)两类。Transformation操作返回一个新的RDD,但不会立即执行计算,只有当遇到Action操作时才会触发真正的计算。
- 容错性:RDD通过血缘关系(lineage)记录数据的生成过程,可以在数据丢失时重新计算丢失的部分。