当前位置: 首页 > article >正文

SparkSQL介绍及使用

文章目录

  • 1. SparkSQL介绍及使用
    • 1.1 SparkSQL介绍
    • 1.2 数据结构的形式
    • 1.3 Spark SQL 特点
    • 1.4 Spark SQL 和 Hive SQL关系

1. SparkSQL介绍及使用

在这里插入图片描述

1.1 SparkSQL介绍

Spark SQL是Apache Spark 用于处理结构化数据DataFrameDatasets)的模块。
在Spark1.0版本时引入了Spark SQL。
在这里插入图片描述

1.2 数据结构的形式

  • 结构化数据
    • 表,DataFrame,Datasets
    • 构成
      • 元数据 描述数据的数据(描述信息,类型约束)
      • 数据本身
身高
179
173
170
163
  • 半结构化数据
    • json,xml,有数据的描述信息,但是对数据内容的类型无法约束。
{
    "name":"lxyxp"
}
  • 非结构化数据
    • 文本文件
    • 图片文件
    • 视频文件
    • 音频文件
      总结
  • Spark SQL 可以将非结构化,半结构化数据统一转化为结构化数据处理。
  • Spark中使用的结构化数据有DataFrame,映射表(离线数仓开发使用)。

1.3 Spark SQL 特点

  • 易整合
    • 使用sql配合Spark一起使用,封装了不同语言的DSL方法。
  • 统一数据访问
    • 使用read方法可以读取HDFS数据,MySQL数据,不同类型的文件数据(json、csv、orc)
    • 使用write方法可以写入HDFS、MySQL不同类型的文件
  • 兼容hive
    • 使用Hive SQL方法
  • 标准的数据连接
    • 使用JDBC和ODBC连接方式连接Spark SQL

1.4 Spark SQL 和 Hive SQL关系

  • shark
    • 运行的模式是Hive on Spark
    • 会将Hive SQL 转换为Spark的RDD
    • shark是基于Hive开发的,维护麻烦,2015年停止维护。
  • Spark SQL
    • 是Spark团队独立开发的工具,2014年发布1.0版本。
    • Spark SQL工具对Spark的兼容性更好,优化性能得到提升。
    • Spark SQL本质也是将SQL语句转化为RDD执行,catalyst引擎负责将sql转化为rdd。
    • sparkSQL可以连接使用hive的metastore服务,管理表的元数据。

http://www.kler.cn/news/353299.html

相关文章:

  • SCCB协议与IIC协议不同
  • 线性可分支持向量机的原理推导 线性分隔超平面关于任意样本点 (x_i,y_i)的函数间隔 公式解析
  • 安装vue发生异常: idealTree:nodejs: sill idealTree buildDeps
  • C++大沥2019年真题——数字圈
  • 在做题中学习(65):Z字形变换
  • C语言数据结构之双向链表(LIST)的实现
  • 如何保证数据库和缓存双写一致性?
  • DAY47WEB 攻防-PHP 应用文件上传函数缺陷条件竞争二次渲染黑白名单JS 绕过
  • 微信小程序-自定义组件
  • 算法题总结(十五)——贪心算法(下)
  • 2024/10/9 数据结构打卡
  • 241013深度学习之GoogleLeNet
  • 波克 上海 Unity开发笔试题 2024
  • 自营机房服务器产品优势
  • C、C++常用数据结构:栈
  • Github 2024-10-13php开源项目日报 Top10
  • 美发店管理升级:SpringBoot技术实现
  • 基于yolov8、yolov5的安全帽检测系统(含UI界面、数据集、训练好的模型、Python代码)
  • QT 10.10
  • 服务器维保|思腾合力以专业力量 筑牢企业IT基石
  • 大数据面试题整理——HDFS
  • C语言笔记 18 —— 指针与数组
  • cmake Qt模板
  • dayjs日期格式化,开发uniapp或unicloud前后端进行时间格式转换
  • Linux——DNS服务器正向解析搭建教程
  • Java使用原生HttpURLConnection实现发送HTTP请求