当前位置：首页 > article >正文

RDD、DataFrame、DataSet（Spark）

article 2025/3/1 22:26:40

RDD、DataFrame、DataSet

在这里插入图片描述

RDD (弹性分布式数据集)：
- 版本: Spark的初始版本，1.0开始提供。
- 特性: RDD是Spark的基础数据结构，表示一个不可变的分布式对象集合。
- 可以通过转换操作（如map、filter、flatMap）和行动操作（如count、collect）来处理数据。
- RDD没有内建的优化机制，对复杂查询和数据处理可能效率较低。

在这里插入图片描述

DataFrame：
- 版本: 从Spark 1.3引入。
- 特性: DataFrame是分布式数据集的结构化表示，类似于数据库中的表格。数据以命名列的形式组织，使得操作更直观且支持SQL查询。
- DataFrame利用Catalyst优化器来自动优化查询计划，提高性能。
- 它不支持编译时类型安全，但提供了更高层次的API来简化数据处理。
Dataset：
- 版本: 从Spark 1.6引入。
- 特性: Dataset结合了RDD和DataFrame的优点。它提供了类型安全性（类似于RDD），并支持编译时类型检查，同时还利用了Catalyst优化器来提高执行效率。
- Dataset可以看作是对DataFrame的扩展，允许使用更强大的类型系统和自定义类型转换，适合需要类型安全和优化的数据处理场景。