当前位置: 首页 > article >正文

Spark处理结构化数据:DataFrame、DataSet、SparkSQL

Spark处理结构化数据:DataFrame、DataSet、SparkSQL

在这里插入图片描述

1. DataFrame:

  • 表示分布式数据集合,以表格的形式存储数据,具有行和列。

在这里插入图片描述

  • 支持丰富的操作和转换(如过滤、选择、聚合等)。

在这里插入图片描述

  • 提供了对数据的高级抽象,简化了对复杂数据处理的操作。
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2. DataSet:

在这里插入图片描述

  • 结合了RDD的强类型特性和DataFrame的优化特性。

在这里插入图片描述

  • 提供了类型安全的操作,编译时会检查类型错误。

在这里插入图片描述

  • 可以用来处理需要严格类型控制的复杂数据。

3. SparkSQL:

  • 提供SQL查询接口来处理结构化数据。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 允许用SQL语句直接对DataFrame进行操作。

在这里插入图片描述

  • 支持通过SQL API进行复杂的查询和数据分析。

它们之间的关系:

  • DataFrameDataSet 的一个特定实现,数据类型为 Row

  • DataSet 可以通过 toDF() 转换为 DataFrame,反之亦然。

http://www.kler.cn/news/308994.html

相关文章:

  • Linux5-echo,>,tail
  • 关于前后端跨域访问的问题
  • C语言16--宏定义和关键字
  • 【FFmpeg应用场景概述】
  • Nginx实用篇:实现负载均衡、限流与动静分离
  • source ~/.bash_profile有什么用
  • MySQL record 05 part
  • mysql5.7常用操作命令手册
  • 是时候对企业数字化转型进行一次复盘了
  • idea 编辑器常用插件集合
  • 如何恢复已删除的远程分支
  • 项目中遇到的问题
  • MyBatisPlus 使用 IPage 分页
  • 神经网络-MNIST数据集训练
  • 回归预测|基于鲸鱼WOA优化最小二乘支持向量机数据回归预测模型Matlab程序 含基础LSSVM程序 有对比 WOA-LSSVM
  • 深度学习计算
  • 【笔记】二维DP
  • 浅谈C#之AutoResetEvent和ManualResetEvent
  • 【HTML】Html标签
  • Redis 入门 - 收官
  • 一款.NET开源的i茅台自动预约小助手
  • Python热频随机森林分类器算法模型模拟
  • mac系统安装最新(截止2024.9.13)Oracle JDK操作记录
  • C++速通LeetCode简单第10题-翻转二叉树
  • Flink难点和高阶面试题:Flink的状态管理机制如何保证数据处理的准确性和完整性
  • 一步到位:通过 Docker Compose 部署 EFK 进行 Docker 日志采集
  • FastAPI--如何自定义Docs UI,包括多个APP、静态资源、元数据等
  • kotlin的密封类
  • springboot+redis+缓存
  • 二十种编程语言庆祝中秋节