当前位置：首页 > article >正文

问：SQL优化，七条实践总结？

article 2024/11/16 1:07:37

SQL语句优化是数据库性能调优的重要部分，通过合理的优化可以显著提升查询速度和系统性能。文章总结几种常见SQL语句优化方法。

1. 优化Where子句的顺序

原则：表之间的连接条件应写在其他Where条件之前，能够过滤掉最大数量记录的条件应优先写。

解释：数据库在执行查询时，会按照Where子句中的条件顺序进行过滤。如果最先执行的是最能缩小结果集的条件，那么后续的处理量将会大大减少，从而提高查询效率。

示例：

-- 不优化的写法
SELECT * 
FROM orders o
WHERE o.order_date > '2023-01-01' 
  AND o.customer_id = c.id 
  AND c.region = 'North';

-- 优化的写法
SELECT * 
FROM orders o
JOIN customers c ON o.customer_id = c.id
WHERE c.region = 'North'
  AND o.order_date > '2023-01-01';

在优化的写法中，首先通过JOIN条件连接orders和customers表，然后通过最能缩小结果集的条件c.region = 'North'进行过滤，最后才是其他条件。

2. 用EXISTS替代IN、用NOT EXISTS替代NOT IN

原则：在处理子查询时，使用EXISTS通常比IN更高效，特别是在子查询返回大量数据时。

解释：EXISTS会在找到第一条匹配记录后立即返回结果，而IN则需要构建整个结果集再进行匹配。在大数据量情况下，EXISTS的性能优势更加明显。

示例：

-- 使用IN的写法
SELECT * 
FROM orders 
WHERE customer_id IN (SELECT id FROM customers WHERE region = 'North');

-- 使用EXISTS的写法
SELECT * 
FROM orders o
WHERE EXISTS (SELECT 1 FROM customers c WHERE c.id = o.customer_id AND c.region = 'North');

在这个例子中，使用EXISTS避免了构建包含所有customer_id的中间结果集，从而提高了查询效率。

3. 避免在索引列上使用计算

原则：在索引列上进行计算会导致索引失效，从而引发全表扫描。

解释：索引是预先计算并存储的，如果在索引列上进行计算（如加减乘除、函数等），数据库将无法直接使用索引，而是需要对每一行数据进行计算后再比较，这会导致性能大幅下降。

示例：

-- 不优化的写法
SELECT * 
FROM orders 
WHERE YEAR(order_date) = 2023;

-- 优化的写法
SELECT * 
FROM orders 
WHERE order_date BETWEEN '2023-01-01' AND '2023-12-31';

在优化的写法中，通过直接使用日期范围查询，避免了在order_date列上进行YEAR函数计算，从而能够利用索引提高查询效率。

4. 避免在索引列上使用IS NULL和IS NOT NULL

原则：在索引列上使用IS NULL或IS NOT NULL会导致索引失效，应尽量避免。

解释：大多数数据库对NULL值的索引处理不够高效，使用IS NULL或IS NOT NULL查询时，可能会导致全表扫描，从而影响性能。

示例：

-- 不优化的写法
SELECT * 
FROM customers 
WHERE email IS NULL;

-- 优化的写法（假设email字段允许空字符串代替NULL）
SELECT * 
FROM customers 
WHERE email = '';

在实际业务中，可以通过设置默认值（如空字符串）来代替NULL，从而避免在索引列上使用IS NULL查询。

5. 建立索引

原则：应尽量避免全表扫描，首先考虑在where及order by涉及的列上建立索引。

解释：索引可以显著提高查询速度，特别是在处理大量数据时。通过在where条件和order by排序涉及的列上建立索引，可以大大减少数据扫描的行数，从而提高查询效率。

示例：

-- 假设没有索引
SELECT * 
FROM orders 
WHERE customer_id = 123 
ORDER BY order_date;

-- 建立索引
CREATE INDEX idx_orders_customer_id ON orders(customer_id);
CREATE INDEX idx_orders_order_date ON orders(order_date);

-- 使用索引后的查询
SELECT * 
FROM orders 
WHERE customer_id = 123 
ORDER BY order_date;

在建立索引后，查询性能会显著提升，因为数据库可以直接通过索引定位到符合条件的数据行，而无需进行全表扫描。

6. 避免在where子句中对字段进行null值判断

原则：尽量避免在where子句中对字段进行null值判断，否则将导致索引失效。

解释：与在索引列上使用IS NULL类似，直接在where子句中对字段进行null值判断也会导致索引失效，从而引发全表扫描。

示例：

-- 不优化的写法
SELECT * 
FROM employees 
WHERE manager_id IS NULL;

-- 优化的写法（通过业务逻辑避免NULL值）
SELECT * 
FROM employees 
WHERE manager_id = 0; -- 假设0表示没有经理

在实际业务设计中，可以通过特殊值（如0或-1）来代替NULL，从而避免在where子句中进行null值判断。

7. 避免在where子句中对字段进行表达式操作

原则：避免在where子句中对字段进行表达式操作，这将导致索引失效。

解释：在索引列上进行表达式操作（如加减乘除、字符串操作等）会导致索引失效，因为数据库需要对每一行数据进行计算后才能进行比较。

示例：

-- 不优化的写法
SELECT * 
FROM products 
WHERE price * 1.1 > 100;

-- 优化的写法
SELECT * 
FROM products 
WHERE price > 100 / 1.1;

在优化的写法中，通过将表达式移到比较值的右侧，避免了在price列上进行计算，从而能够利用索引提高查询效率。

综合实践

结合以上优化方法，我们可以对一个复杂的查询进行综合优化。假设我们有以下两个表：orders（订单表）和customers（客户表），我们需要查询2023年北区客户的所有订单，并按照订单日期排序。

未优化的查询：

SELECT o.* 
FROM orders o
WHERE o.customer_id IN (SELECT c.id FROM customers c WHERE c.region = 'North')
  AND YEAR(o.order_date) = 2023
ORDER BY o.order_date;

优化后的查询：

-- 首先建立索引
CREATE INDEX idx_customers_region ON customers(region);
CREATE INDEX idx_orders_customer_id ON orders(customer_id);
CREATE INDEX idx_orders_order_date ON orders(order_date);

-- 优化后的查询
SELECT o.* 
FROM orders o
JOIN customers c ON o.customer_id = c.id
WHERE c.region = 'North'
  AND o.order_date BETWEEN '2023-01-01' AND '2023-12-31'
ORDER BY o.order_date;

在优化后的查询中，我们做了以下改进：