当前位置：首页 > article >正文

spark大数据分析

article 2025/2/24 15:40:52

概念

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。

Spark与Hadoop

Spark是一个计算框架,而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广泛地说还包括在其生态系统上的其他系统.

特点：

1. 大量（Volume）

定义：数据量巨大，通常从 TB 到 PB 甚至 EB 级别。
Spark 的应对：
- 分布式计算：Spark 将数据分布在集群的多个节点上，并行处理大规模数据。
- 内存计算：Spark 将数据存储在内存中，减少了磁盘 I/O 的开销，显著提高了处理速度。
- 弹性扩展：Spark 可以在数千台节点的集群上运行，支持处理 PB 级别的数据。

2. 高速（Velocity）

定义：数据生成和处理的速度非常快，例如实时数据流。
Spark 的应对：
- Spark Streaming：Spark 提供了流处理模块，能够实时处理数据流。
- 微批处理（Micro-batching）：Spark Streaming 将实时数据流划分为小批次（如每秒钟一个批次），并在每个批次上执行批处理操作。
- Structured Streaming：Spark 2.0 引入了 Structured Streaming，提供了更高级的流处理 API，支持事件时间和窗口操作。

3. 多样（Variety）

定义：数据来源和格式多样化，包括结构化数据（如数据库表）、半结构化数据（如 JSON、XML）和非结构化数据（如文本、图像、视频）。
Spark 的应对：
- 多数据源支持：Spark 支持从多种数据源读取数据，如 HDFS、S3、Kafka、Hive、关系型数据库等。
- 多数据格式支持：Spark 支持处理多种数据格式，包括 CSV、JSON、Parquet、Avro、ORC 等。
- 统一的数据抽象：Spark 提供了 DataFrame 和 Dataset API，能够统一处理结构化和半结构化数据。

4. 低价值密度（Value）

定义：大数据中蕴含的价值密度较低，需要从海量数据中提取有价值的信息。
Spark 的应对：
- 高效的数据处理：Spark 通过内存计算和 DAG 执行引擎，能够快速处理海量数据，提取有价值的信息。
- 机器学习支持：Spark 提供了 MLlib 库，支持从数据中挖掘模式和规律，构建机器学习模型。
- 交互式分析：Spark 支持交互式查询（如通过 Spark SQL），方便用户快速探索数据并发现价值。

5. 真实性（Veracity）

定义：数据的准确性和可靠性可能存在不确定性，例如噪声数据、缺失数据或不一致数据。
Spark 的应对：
- 数据清洗：Spark 提供了丰富的数据转换操作（如 filter、dropna、fillna 等），能够有效清洗和预处理数据。
- 容错机制：Spark 通过 RDD 的血缘关系和检查点机制，确保数据处理的可靠性和一致性。
- 数据验证：Spark 可以与数据质量工具集成，对数据进行验证和监控，确保数据的真实性。