当前位置: 首页 > article >正文

SQL 复杂查询和性能优化

一、掌握复杂查询的核心技能

1. ​理解 SQL 执行顺序
  • SQL 语句的逻辑执行顺序(非书写顺序):
    FROM → JOIN → WHERE → GROUP BY → HAVING → SELECT → DISTINCT → ORDER BY → LIMIT
  • 关键点:每一步的结果会传递给下一步,影响优化逻辑。
2. ​多表连接(JOIN)​
  • 类型
    • INNER JOIN(默认)
    • LEFT/RIGHT JOIN
    • FULL OUTER JOIN(部分数据库不支持)
    • CROSS JOIN(笛卡尔积)
  • 示例
    SELECT u.name, o.order_id
    FROM users u
    LEFT JOIN orders o ON u.id = o.user_id
    WHERE o.amount > 100;
3. ​子查询与 CTE
  • 子查询
    SELECT name FROM users
    WHERE id IN (SELECT user_id FROM orders WHERE amount > 100);
  • CTE(公共表表达式)​
    WITH high_value_orders AS (
        SELECT user_id FROM orders WHERE amount > 100
    )
    SELECT u.name FROM users u
    JOIN high_value_orders hvo ON u.id = hvo.user_id;
  • 优势:CTE 可读性更好,支持递归查询。
4. ​窗口函数
  • 用途:在结果集的子集上计算聚合(不折叠行)。
  • 示例
    SELECT name, salary,
           RANK() OVER (PARTITION BY department ORDER BY salary DESC) AS rank
    FROM employees;
  • 常用函数
    • ROW_NUMBER()RANK()DENSE_RANK()
    • LEAD()LAG()
    • SUM() OVER (PARTITION BY ...)
5. ​复杂条件与 CASE 语句
  • 动态分类
    SELECT name,
           CASE WHEN salary > 10000 THEN 'High'
                WHEN salary > 5000 THEN 'Medium'
                ELSE 'Low' END AS salary_level
    FROM employees;

二、性能优化核心技巧

1. ​分析执行计划
  • 使用 EXPLAIN
    EXPLAIN SELECT * FROM users WHERE email = 'user@example.com';
  • 关键指标
    • Full Table Scan(全表扫描)→ 需要避免。
    • Index Scan(索引扫描)→ 理想情况。
    • Rows Removed by Filter → 过滤效率。
2. ​索引优化
  • 何时使用索引
    • 频繁作为查询条件的列(WHERE、JOIN、ORDER BY)。
    • 高选择性的列(唯一值多,如用户ID)。
  • 索引类型
    • 单列索引、复合索引、唯一索引、覆盖索引。
  • 复合索引设计
    • 将最常用的列放在前面。
    • 示例:INDEX (country, city) 可优化 WHERE country='US' AND city='NY'
3. ​避免全表扫描
  • 反例
    SELECT * FROM users WHERE YEAR(created_at) = 2023; -- 无法使用 created_at 的索引
  • 优化
    SELECT * FROM users
    WHERE created_at BETWEEN '2023-01-01' AND '2023-12-31';
4. ​分页优化
  • 低效写法
    SELECT * FROM users LIMIT 1000000, 10; -- 扫描前 100 万行
  • 优化
    SELECT * FROM users WHERE id > 1000000 ORDER BY id LIMIT 10;
5. ​减少数据传输量
  • 避免 SELECT *
    SELECT id, name FROM users; -- 只取必要字段
  • 分批次处理
    -- 使用 WHERE 条件分块处理大表
    DELETE FROM logs WHERE created_at < '2020-01-01' LIMIT 1000;
6. ​利用分区表
  • 按时间分区
    -- 按月份分区(具体语法因数据库而异)
    CREATE TABLE logs (
        id INT,
        log_time DATETIME,
        message TEXT
    ) PARTITION BY RANGE (YEAR(log_time), MONTH(log_time));
  • 优势:快速定位分区,减少扫描范围。

三、高级优化场景

1. ​JOIN 优化
  • 小表驱动大表
    -- 假设 users 是小表,orders 是大表
    SELECT * FROM users u
    JOIN orders o ON u.id = o.user_id;
  • 使用 STRAIGHT_JOIN(MySQL)​:强制指定 JOIN 顺序。
2. ​临时表与物化视图
  • 临时表
    CREATE TEMPORARY TABLE temp_high_salary AS
    SELECT * FROM employees WHERE salary > 10000;
  • 物化视图:预计算复杂查询结果(如 PostgreSQL 的 MATERIALIZED VIEW)。
3. ​统计信息更新
  • 手动更新​(适用于数据变化大的表):
    ANALYZE TABLE users; -- MySQL
    VACUUM ANALYZE users; -- PostgreSQL
4. ​避免锁竞争
  • 使用乐观锁
    UPDATE products SET stock = stock - 1
    WHERE id = 100 AND stock > 0;
  • 分拆事务:将大事务拆分为小操作。

四、工具与调试

  1. 数据库管理工具
    • MySQL: EXPLAIN FORMAT=JSONSHOW PROFILE
    • PostgreSQL: EXPLAIN ANALYZEpg_stat_statements
  2. 监控工具
    • Prometheus + Grafana(监控慢查询、锁等待)。
  3. 基准测试
    • 使用 sysbench 或自定义脚本模拟负载。

五、常见误区

  1. 过度索引:索引会降低写入速度,需权衡。
  2. 忽略 NULL 值WHERE column = NULL 应改为 WHERE column IS NULL
  3. 滥用子查询:优先使用 JOIN 或 CTE。
  4. 不更新统计信息:导致优化器选择错误执行计划。

http://www.kler.cn/a/612836.html

相关文章:

  • ubuntu 2204键盘按键映射修改
  • nginx部署前端项目(linux、docker)
  • 解锁大语言模型潜力:LangChain,构建AI应用的全新框架
  • Angular由一个bug说起之十五:自定义基于Overlay的Tooltip
  • 数字人分身生成50语种发布会视频技术架构深度解析
  • CTF类题目复现总结-[MRCTF2020]ezmisc 1
  • 网络通信协议浅析:TCP/IP、UDP、HTTP 和 MQTT
  • java项目之基于ssm的亚盛汽车配件销售业绩管理系统(源码+文档)
  • 基于网启PXE服务器的批量定制系统平台(详细版)
  • 推荐系统(十六):基于ESMM的商品召回/推荐系统
  • SpringBoot学习Day1
  • Appium 入门操作指南
  • 地理信息可视化技术大全【WebGIS 技术文档大全】
  • Nginx多域名HTTPS配置全攻略:从证书生成到客户端安装
  • 【矩阵快速幂】P2100 凌乱的地下室|省选-
  • UE4学习笔记 FPS游戏制作31 显示计分板
  • 31天Python入门——第16天:模块与库详解
  • 正则表达式-笔记
  • ArayTS:一个功能强大的 TypeScript 工具库
  • Docker 快速入门指南