当前位置: 首页 > article >正文

大数据学习(26)-spark SQL核心总结

&&大数据学习&&

🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


Spark SQL是Apache Spark的一个模块,它用于处理结构化数据。以下是Spark SQL的核心知识总结:

  1. 数据抽象:Spark SQL提供了DataFrame和DataSet两种数据抽象。DataFrame类似于RDD,但提供了更多的优化机制。DataSet是Spark最新的数据抽象,包含了DataFrame所有的优化机制。
  2. 执行引擎:Spark SQL使用了Catalyst作为其优化器,将SQL查询转换成RDD或DataFrame,然后提交到集群执行。相较于Hive,Spark SQL不需要依赖MapReduce,而是使用自己的执行计划。
  3. 数据源整合:Spark SQL可以读取多种数据源,包括Hive、Parquet、CSV、JSON等,并支持通过JDBC/ODBC连接访问其他数据库。
  4. 兼容性:Spark SQL与Hive兼容,可以通过启动thrift Server来支持JDBC/ODBC的访问,将自身作为一个BI Server使用。
  5. 性能优势:Spark SQL相较于RDD有更好的外部数据源读写支持,因为它直接访问列的能力,适用于处理结构化数据。
  6. 编程语言:Spark SQL支持使用Scala、Java、Python和R等多种编程语言编写应用程序。
  7. 数据处理:Spark SQL提供了丰富的数据处理功能,包括选择、过滤、聚合等操作,可以方便地进行数据转换和清洗。
  8. 分布式特性:Spark SQL作为分布式SQL查询引擎,可以处理大规模的数据集,并支持跨多个节点进行并行处理。

Spark SQL是一种功能强大的数据处理工具,适用于处理结构化数据。它提供了丰富的数据源整合、编程语言支持和数据处理功能,可以高效地处理大规模的数据集。

但是需要注意的是:

  1. 数据抽象方式:Spark使用RDD作为数据抽象方式,而Spark SQL使用DataFrame和DataSet作为数据抽象方式。
  2. 执行引擎:Spark使用自己的执行计划,而Spark SQL使用Catalyst作为优化器,将SQL查询转换成RDD或DataFrame,然后提交到集群执行。
  3. 性能优化:Spark SQL相较于Spark在处理结构化数据时具有更好的性能优化机制。
  4. 兼容性:Spark SQL与Hive兼容,可以通过启动thrift Server来支持JDBC/ODBC的访问,将自身作为一个BI Server使用。
  5. 编程语言支持:Spark支持使用Scala、Java、Python和R等多种编程语言编写应用程序,而Spark SQL主要支持使用Scala、Java和Python编写应用程序。

 


http://www.kler.cn/a/149430.html

相关文章:

  • 开发语言中,堆区和栈区的区别
  • 1111111111待修改--大流量分析(三)-BUUCTF
  • flutter下拉刷新上拉加载的简单实现方式三
  • 数据库SQL——连接表达式(JOIN)图解
  • STM32单片机WIFI语音识别智能衣柜除湿消毒照明
  • gdb编译教程(支持linux下X86和ARM架构)
  • 鸿蒙应用开发之打包与上架
  • 天软高频时序数据仓库
  • Ubuntu系统Springboot项目Nginx安装(编译安装方式)
  • echarts点击事件
  • vue2+el-select实现分页加载更多功能
  • 插入或更新学生信息的 SQL 语句
  • 【问题解决!】OSError: [WinError 1455] 页面文件太小,无法完成操作。Error loading “c:\Anaconda3\lib
  • 在Windows WSL (Linux的Windows子系统)上运行的Ubuntu如何更改主机名
  • 5W2H分析法
  • git分支拉取时,提示冲突
  • SAP_ABAP_基础编程_DESCRIBE FIELD_获取数据对象的属性
  • 2.ORB-SLAM3中如何从二进制文件中加载多地图、关键帧、地图点等数据结构
  • Leetcode 1727. 具有重排的最大子矩阵
  • RPC之GRPC:什么是GRPC、GRPC的优缺点、GRPC使用场景
  • web:NewsCenter
  • 芯片设计中的DFX
  • skywalking告警UI界面有告警信息,webhook接口没有回调,400错误
  • 【100个Cocos实例】完蛋,你看我在刮刮乐中刮到了什么?
  • 【Java基础】-- Java包(package)命名规范
  • 选择更灵活的设计工具:SOLIDWORKS 软件网络版与单机版的比较