当前位置: 首页 > article >正文

Spark技术系列(一):初识Apache Spark——大数据处理的统一分析引擎

Spark技术系列(一):初识Apache Spark——大数据处理的统一分析引擎

1. 背景与核心价值

1.1 大数据时代的技术演进

  • MapReduce的局限性:磁盘迭代计算、中间结果落盘导致的性能瓶颈
  • Spark诞生背景:UC Berkeley AMPLab实验室为解决复杂迭代计算需求研发(2010年开源)
  • 技术定位:基于内存的通用分布式计算框架(支持批处理、流计算、机器学习、图计算等)

1.2 Spark内置模块

Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。
Spark SQL:是Spark用来操作结构化数据的程序包。通过Spark SQL,我们可以使用 SQL或者Apache Hive版本的SQL方言(HQL)来查询数据。Spark SQL支持多种数据源,比如Hive表、Parquet以及JSON等。
Spark Streaming:是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API,并且与Spark Core中的 RDD API高度对应。
Spark MLlib:提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据 导入等额外的支持功能。
集群管理器:Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计 算。为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度 器,叫作独立调度器。

Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务;阿里利用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的Spark集群。

1.3 Spark特点

  1. :与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。
  2. 易用:Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的Shell,可以非常方便地在这些Shell中使用Spark集群来验证解决问题的方法。
  3. 通用

http://www.kler.cn/a/565647.html

相关文章:

  • 【软考-架构】1.2、指令系统-存储系统-cache
  • uniapp实现的消息无限滚动组件,支持H5、微信小程序
  • python实现自己的业务集成AnythingLLM并使用eventStream方式返回前端数据
  • 依赖注入
  • Qt 上下键切换焦点及显示自定义ToolTip
  • 【MySQL】 表的约束(上)
  • R语言+AI提示词:贝叶斯广义线性混合效应模型GLMM生物学Meta分析
  • T23N 君正(Ingenic)T系列芯片是专为智能视频和物联网应用设计的高性能、低功耗处理器 提供软硬件资料及样品测试
  • 网络安全技术概述
  • 周鸿祎新能源汽车抽奖活动,抽奖券:7UTVCA
  • 辛格迪客户案例 | 甫康(上海)健康科技有限责任公司药物警戒管理系统(PVS)项目
  • 用DeepSeek生成批量删除处理 PDF第一页工具
  • 【计算机视觉】条形码与二维码识别
  • 边缘计算+多模态感知:户外监控核心技术解析与工程部署实践!户外摄像头监控哪种好?户外摄像头监控十大品牌!格行视精灵VS海康威视VS大华横评!
  • JavaEE [特殊字符] TCP协议:三次握手四次挥手全图解
  • python-leetcode-下一个排列
  • 基于定制开发开源AI大模型S2B2C商城小程序的商品选品策略研究
  • 单例模式---是 Spring 容器的核心特性之一
  • Oracle 导出所有表索引的创建语句
  • macos下myslq图形化工具之Sequel Ace