当前位置：首页 > article >正文

PostgreSQL 中的公用表表达式（CTE）学习指南

article 2025/2/28 15:35:45

在现代数据库管理中，SQL 查询的复杂性不断增加，尤其是在处理多层嵌套查询和递归查询时。为了提高查询的可读性和维护性，PostgreSQL 提供了一种强大的工具——公用表表达式（Common Table Expressions，简称 CTE）。

CTE 是一种临时结果集，可以在执行 SQL 查询时被引用，极大地简化了复杂查询的编写和理解。本文将深入探讨 CTE 的基本概念、语法、应用场景以及最佳实践，帮助读者更好地掌握这一重要特性。

1. CTE 的基本概念

公用表表达式（CTE）是一种在 SQL 查询中定义临时结果集的方式，它可以在查询的主 SELECT 语句中被引用。CTE 可以被视为一个命名的临时结果集，通常用于简化复杂查询、提高可读性和重用查询逻辑。

1.1 CTE 的语法

CTE 的基本语法如下：

WITH cte_name AS (
SELECT column1, column2, ...
FROM table_name
WHERE condition
)
SELECT *
FROM cte_name;

WITH：用于引入 CTE 的关键字。
cte_name：CTE 的名称，后续查询可以引用该名称。
SELECT ... FROM ...：定义 CTE 的查询。

1.2 CTE 的类型

CTE 主要有两种类型：

1. 非递归 CTE：用于简单的查询，类似于视图。
2. 递归 CTE：用于处理层次结构数据，例如组织结构、树形结构等。

2. 非递归 CTE 的使用

2.1 简单示例

以下是一个简单的非递归 CTE 示例，假设我们有一个员工表 `employees`，我们希望查询所有员工的姓名和薪资。

WITH employee_data AS (
SELECT name, salary
FROM employees
WHERE department = 'Sales'
)
SELECT *
FROM employee_data;

在这个示例中，`employee_data` 是一个 CTE，查询了所有销售部门的员工姓名和薪资。在主查询中，我们可以直接引用这个 CTE。

2.2 复杂查询的简化

CTE 可以帮助简化复杂查询。例如，我们希望查询每个部门的平均薪资，并列出每个员工的姓名和薪资。

WITH avg_salary AS (
SELECT department, AVG(salary) AS average_salary
FROM employees
GROUP BY department
)
SELECT e.name, e.salary, a.average_salary
FROM employees e
JOIN avg_salary a ON e.department = a.department;

在这个示例中，首先计算每个部门的平均薪资，然后在主查询中将员工与平均薪资进行连接。使用 CTE 可以使查询逻辑更加清晰。

3. 递归 CTE 的使用

递归 CTE 允许在查询中引用自身，适用于处理层次结构数据。递归 CTE 由两个部分组成：基础查询和递归查询。

3.1 递归 CTE 的基本结构

递归 CTE 的基本结构如下：

WITH RECURSIVE cte_name AS (
-- 基础查询
SELECT column1, column2
FROM table_name
WHERE condition

UNION ALL

-- 递归查询
SELECT column1, column2
FROM table_name
JOIN cte_name ON table_name.column = cte_name.column
)
SELECT *
FROM cte_name;

RECURSIVE：指示 CTE 是递归的。
UNION ALL：将基础查询和递归查询的结果合并。

3.2 递归 CTE 示例

假设我们有一个员工表 `employees`，其中有一个 `manager_id` 列表示员工的直接上级。我们希望查询某个员工及其所有上级的姓名。

WITH RECURSIVE employee_hierarchy AS (
-- 基础查询：查找特定员工
SELECT id, name, manager_id
FROM employees
WHERE id = 1 -- 假设我们查询员工 ID 为 1 的员工

UNION ALL

-- 递归查询：查找上级
SELECT e.id, e.name, e.manager_id
FROM employees e
JOIN employee_hierarchy eh ON e.id = eh.manager_id
)
SELECT *
FROM employee_hierarchy;

在这个示例中，基础查询查找员工 ID 为 1 的员工，递归查询查找该员工的上级，直到没有更多上级为止。

4. CTE 的应用场景

CTE 在实际应用中非常灵活，适用于多种场景：

4.1 数据汇总与分析

CTE 可以用于数据汇总和分析，特别是在需要多次引用相同计算结果时。例如，计算每个部门的销售总额和平均销售额。

WITH sales_summary AS (
SELECT department, SUM(sales) AS total_sales, AVG(sales) AS avg_sales
FROM sales
GROUP BY department
)
SELECT *
FROM sales_summary;

4.2 处理层次结构数据

递归 CTE 非常适合处理层次结构数据，如组织结构、分类等。例如，查询分类及其子分类。

WITH RECURSIVE category_hierarchy AS (
SELECT id, name, parent_id
FROM categories
WHERE parent_id IS NULL -- 获取顶级分类

UNION ALL

SELECT c.id, c.name, c.parent_id
FROM categories c
JOIN category_hierarchy ch ON c.parent_id = ch.id
)
SELECT *
FROM category_hierarchy;

4.3 数据清洗与转换

CTE 还可以用于数据清洗和转换，尤其是在处理复杂的数据转换逻辑时。可以使用 CTE 先进行数据清洗，再进行最终查询。

WITH cleaned_data AS (
SELECT id, TRIM(name) AS name, salary
FROM employees
WHERE salary > 0 -- 清除薪资为负的记录
)
SELECT *
FROM cleaned_data
WHERE name IS NOT NULL; -- 进一步筛选

5. CTE 的性能考虑

尽管 CTE 提高了查询的可读性和维护性，但在性能方面也需要注意：

5.1 CTE 的计算

CTE 在每次引用时都会重新计算，这可能会导致性能下降。对于复杂的 CTE，建议使用物化视图（Materialized Views）或临时表（Temporary Tables）来提高性能。

5.2 避免过度使用递归

递归 CTE 在处理较大数据集时可能会导致性能问题。建议在使用递归 CTE 时，尽量控制递归的深度，并确保数据集的大小在可接受范围内。

5.3 监控查询性能

使用 PostgreSQL 的查询分析工具（如 `EXPLAIN` 和 `EXPLAIN ANALYZE`）监控 CTE 查询的性能，识别潜在的性能瓶颈。

6. CTE 的最佳实践

为了充分利用 CTE 的优势，以下是一些最佳实践：

6.1 使用清晰的命名

为 CTE 使用描述性的名称，以提高代码的可读性。例如，使用 `sales_summary` 而不是 `cte1`。