当前位置：首页 > article >正文

Hive Presto SQL 查询优化指南

article 2025/3/24 23:19:15

在大数据处理领域，Hive 和 Presto 是两种常见的 SQL 查询引擎，分别适用于批量处理（Hive）和交互式查询（Presto）。然而，在使用它们时，SQL 查询可能会遇到性能瓶颈，例如查询慢、资源消耗高等问题。本文将介绍 Hive 和 Presto 查询的常见问题，并提供优化方案。

1. Hive 查询常见问题与优化

1.1 全表扫描问题

问题描述

如果 SQL 查询未使用分区列作为过滤条件，Hive 可能会扫描整个表，导致查询效率低下。

优化方案

启用分区裁剪（Partition Pruning）
- 示例：未优化 SQL（会扫描所有数据）
```
SELECT * FROM sales WHERE year = 2024;
```
- 优化后 SQL（使用分区）
```
SELECT * FROM sales WHERE year = '2024';
```
- 最佳实践：确保 year 是 PARTITIONED BY 的列，并且查询时明确指定分区值。

1.2 JOIN 造成的性能问题

问题描述

Hive 的 JOIN 操作默认是 Shuffle Join，可能导致大量数据传输，影响查询性能。

优化方案

使用 Map Join（适用于小表 JOIN 大表）

SET hive.auto.convert.join=true;
SELECT /*+ MAPJOIN(small_table) */ * FROM large_table lt 
JOIN small_table st ON lt.id = st.id;

使用分桶（Bucket Join，适用于大表 JOIN 大表）

CREATE TABLE large_table (id INT, name STRING) CLUSTERED BY (id) INTO 10 BUCKETS;
CREATE TABLE small_table (id INT, type STRING) CLUSTERED BY (id) INTO 10 BUCKETS;

SET hive.optimize.bucketmapjoin=true;
SELECT * FROM large_table lt JOIN small_table st ON lt.id = st.id;

1.3 ORC / Parquet 文件格式优化

问题描述

默认的 TextFile/CSV 读取效率低，影响查询速度。

优化方案

推荐使用 ORC / Parquet 格式
```
CREATE TABLE sales_orc (id INT, amount DOUBLE) 
STORED AS ORC;
```
- ORC 支持 Predicate Pushdown，减少数据扫描量
- Parquet 适用于 Presto / Spark，适合复杂查询

1.4 执行计划分析优化

使用 EXPLAIN 分析查询执行计划

EXPLAIN SELECT * FROM sales WHERE year = '2024';

启用 hive.exec.orc.split.strategy=BI 进行 ORC 文件优化
```
SET hive.exec.orc.split.strategy=BI;
```
启用 hive.exec.orc.skip.corrupt.data=true 以跳过损坏数据
```
SET hive.exec.orc.skip.corrupt.data=true;
```

2. Presto 查询常见问题与优化

2.1 大表 JOIN 造成的性能问题

问题描述

Presto 默认采用 Shuffle Join，可能导致数据倾斜。

优化方案

使用 Broadcast Join（适用于小表 JOIN 大表）

SELECT /*+ BROADCAST(small_table) */ * 
FROM large_table lt 
JOIN small_table st ON lt.id = st.id;

使用 Dynamic Filtering（Presto 特性，自动优化 JOIN 过程）

SELECT * FROM fact_table f JOIN dim_table d 
ON f.id = d.id WHERE d.type = 'active';

2.2 ORC / Parquet 读取优化

优化方案

创建 Parquet 表（适用于 Presto）

CREATE TABLE sales_parquet (id INT, revenue DOUBLE) 
WITH (format = 'PARQUET');

启用查询缓存

SET SESSION result_cache_enabled = true;

3. SQL 语法优化

**3.1 避免使用 COUNT(*) 统计大表**

优化方案

Hive 可改用 APPROX_COUNT_DISTINCT

SELECT APPROX_COUNT_DISTINCT(user_id) FROM sales;

Presto 可使用 count(column_name) 或 approx_distinct
```
SELECT approx_distinct(user_id) FROM sales;
```

3.2 避免 GROUP BY 低效聚合

优化方案

减少 GROUP BY 维度

SELECT category, SUM(amount) FROM sales GROUP BY category;

使用预聚合表减少计算量

CREATE TABLE sales_summary AS
SELECT category, year, SUM(amount) AS total_amount FROM sales GROUP BY category, year;

避免数据倾斜，启用 Hive 处理
```
SET hive.groupby.skewindata=true;
```

3.3 避免 SELECT *

优化方案

只选择需要的列
```
SELECT id, name, amount FROM sales;
```

3.4 避免子查询嵌套过深

优化方案

使用 CTE（Common Table Expression）提高可读性和优化查询

WITH filtered_sales AS (
    SELECT id, amount FROM sales WHERE amount > 1000
)
SELECT * FROM filtered_sales WHERE id > 10;

4. 总结

在实际查询时，可以结合 分区优化、文件格式优化、JOIN 策略优化、SQL 语法优化 等方式，提升 Hive 和 Presto 的 SQL 查询性能，减少查询延迟，提高资源利用率！🚀

查看全文

http://www.kler.cn/a/595971.html

使用 Fetch API 实现流式读取

深入理解 HTML 框架：iframe 与页面分割的学习进度（二）

在 Linux 系统中，路径（Path）用于定位文件或目录的位置。路径分为两种类型：相对路径和绝对路径。它们的核心区别在于路径的起点不同

油候插件、idea、VsCode插件推荐（自用）

如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

网络华为HCIA+HCIP 以太网链路聚合与交换机堆叠、集群

uniapp的图片上传与提交（Demo记录）

C#设计模式之工厂模式

织梦DedeCMS增加文章【点赞】功能

Linux安装go环境

WebDeveloper靶机详解

vue3组合式API、状态库Pinia、打包工具Vite

51c自动驾驶~合集24

LeetCode 134. 加油站 java题解

java生成一个可以下载的word文件

2025信创即时通讯排行：安全合规与生态适配双轮驱动

java string 类型转list实体类且忽略实体类中没有的字段

java查询es超过10000条数据

VS代码生成工具ReSharper v2024.3——支持C# 13

Redis-分布式锁实现秒杀

1. Hive 查询常见问题与优化

1.1 全表扫描问题

问题描述

优化方案

1.2 JOIN 造成的性能问题

问题描述

优化方案

1.3 ORC / Parquet 文件格式优化

问题描述

优化方案

1.4 执行计划分析优化

2. Presto 查询常见问题与优化

2.1 大表 JOIN 造成的性能问题

问题描述

优化方案

2.2 ORC / Parquet 读取优化

优化方案

3. SQL 语法优化

3.1 避免使用 COUNT(*) 统计大表

优化方案

3.2 避免 GROUP BY 低效聚合

优化方案

**3.3 避免 SELECT ***

优化方案

3.4 避免子查询嵌套过深

优化方案

4. 总结

相关文章：

**3.1 避免使用 COUNT(*) 统计大表**

3.3 避免 SELECT *