当前位置: 首页 > article >正文

Spark处理结构化数据:DataFrame、DataSet、SparkSQL

Spark处理结构化数据:DataFrame、DataSet、SparkSQL

在这里插入图片描述

1. DataFrame:

  • 表示分布式数据集合,以表格的形式存储数据,具有行和列。

在这里插入图片描述

  • 支持丰富的操作和转换(如过滤、选择、聚合等)。

在这里插入图片描述

  • 提供了对数据的高级抽象,简化了对复杂数据处理的操作。
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2. DataSet:

在这里插入图片描述

  • 结合了RDD的强类型特性和DataFrame的优化特性。

在这里插入图片描述

  • 提供了类型安全的操作,编译时会检查类型错误。

在这里插入图片描述

  • 可以用来处理需要严格类型控制的复杂数据。

3. SparkSQL:

  • 提供SQL查询接口来处理结构化数据。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 允许用SQL语句直接对DataFrame进行操作。

在这里插入图片描述

  • 支持通过SQL API进行复杂的查询和数据分析。

它们之间的关系:

  • DataFrameDataSet 的一个特定实现,数据类型为 Row

  • DataSet 可以通过 toDF() 转换为 DataFrame,反之亦然。

http://www.kler.cn/a/308994.html

相关文章:

  • 微服务架构面试内容整理-API 网关-Gateway
  • DNS面临的4大类共计11小类安全风险及防御措施
  • 【C#设计模式(8)——过滤器模式(Adapter Pattern)】
  • vxe-table 3.10+ 进阶高级用法(一),根据业务需求自定义实现筛选功能
  • Toeplitz矩阵循环矩阵
  • 哪款开放式耳机好用?5款实力出众的开放式耳机按头安利!
  • Linux5-echo,>,tail
  • 关于前后端跨域访问的问题
  • C语言16--宏定义和关键字
  • 【FFmpeg应用场景概述】
  • Nginx实用篇:实现负载均衡、限流与动静分离
  • source ~/.bash_profile有什么用
  • MySQL record 05 part
  • mysql5.7常用操作命令手册
  • 是时候对企业数字化转型进行一次复盘了
  • idea 编辑器常用插件集合
  • 如何恢复已删除的远程分支
  • 项目中遇到的问题
  • MyBatisPlus 使用 IPage 分页
  • 神经网络-MNIST数据集训练
  • 回归预测|基于鲸鱼WOA优化最小二乘支持向量机数据回归预测模型Matlab程序 含基础LSSVM程序 有对比 WOA-LSSVM
  • 深度学习计算
  • 【笔记】二维DP
  • 浅谈C#之AutoResetEvent和ManualResetEvent
  • 【HTML】Html标签
  • Redis 入门 - 收官