当前位置：首页 > article >正文

【大数据学习 | 面经】Spark3.x对比2.x有哪些优点

article 2025/2/28 15:47:09

Spark3.x引用了AQE功能，它可以在运行时动态调整查询计划，包括合并小文件，优化join策略等。

改进了SQL查询中的分区裁剪能力，允许在运行时根据过滤条件更精确的确定需要读取的分区，从而减少不必要的IO操作。

增强了广播连接功能，使得广播表的选择更加智能，减少不必要的广播操作，并且可以更好的处理大表与小表之间的连接。

改进了shuffle操作的效率，例如通过减少磁盘IO和网络传输加速数据交换过程。

对TPC-DS基准测试中的一些查询性能有显著提升，部分查询的速度提高了2倍到18倍。

提供了更为统一的编程接口，简化了DataFrame和Dataset API的使用，同时更强了Structured Streaming的功能。

树和二叉树（概念结构）

库存管理如何做到“先进先出”?

Navicat连接SQL Server

初始Python篇（9）—— 函数

经典图论之道路与航线

Scala的正则表达式

便携微型充气泵方案开发设计

Node.js JWT认证教程

FPGA设计-基于SJA1000的can控制器设计

Mybatis 学习之 XML 手册