当前位置: 首页 > article >正文

MySQL中distinct和group by去重的区别

MySQL中distinct和group by去重的区别

请添加图片描述

在MySQL中,我们经常需要对查询结果进行去重,而DISTINCTGROUP BY是实现这一功能的两种常见方法。虽然它们在很多情况下可以互换使用,但它们之间还是存在一些差异的。接下来,我们将通过创建测试数据和执行不同的查询来探讨这两种方法的区别。

目录

  1. 创建测试数据
  2. DISTINCT使用
  3. [GROUP BY使用](#GROUP BY使用)
  4. [distinct和group by的区别](#distinct和group by的区别)
  5. 总结

创建测试数据

首先,我们创建一个测试表pageview,并插入一些数据:

SQL代码:

-- 创建测试表
DROP TABLE IF EXISTS pageview;
CREATE TABLE pageview (
    id BIGINT PRIMARY KEY AUTO_INCREMENT COMMENT '自增主键',
    aid BIGINT NOT NULL COMMENT '文章ID',
    uid BIGINT NOT NULL COMMENT '(访问)用户ID',
    createtime DATETIME DEFAULT NOW() COMMENT '创建时间'
) DEFAULT CHARSET='utf8mb4';

-- 添加测试数据
INSERT INTO pageview(aid, uid) VALUES(1, 1);
INSERT INTO pageview(aid, uid) VALUES(1, 1);
INSERT INTO pageview(aid, uid) VALUES(2, 1);
INSERT INTO pageview(aid, uid) VALUES(2, 2);

DISTINCT使用

DISTINCT的基本语法如下:

SELECT DISTINCT column_name, column_name FROM table_name;

单列去重

根据aid(文章ID)去重:

SQL代码:

SELECT DISTINCT aid FROM pageview;

多列去重

根据aiduid联合去重:

SQL代码:

SELECT DISTINCT aid, uid FROM pageview;

聚合函数+去重

使用DISTINCT+聚合函数计算aid去重之后的总条数:

SQL代码:

SELECT COUNT(DISTINCT aid) FROM pageview;

GROUP BY使用

GROUP BY的基础语法如下:

SELECT column_name, column_name FROM table_name 
GROUP BY column_name;

单列去重

根据aid去重:

SQL代码:

SELECT aid FROM pageview GROUP BY aid;

DISTINCT相比,GROUP BY可以显示更多的列,而DISTINCT只能展示去重的列。

多列去重

根据aiduid联合去重:

SQL代码:

SELECT aid, uid FROM pageview GROUP BY aid, uid;

聚合函数 + GROUP BY

统计每个aid的总数量:

SQL代码:

SELECT aid, COUNT(*) FROM pageview GROUP BY aid;

distinct和group by的区别

查询结果集不同

使用DISTINCT去重时,查询结果集中只有去重列信息。而使用GROUP BY可以查询一个或多个字段。

使用业务场景不同

统计去重之后的总数量需要使用DISTINCT,而统计分组明细或在分组明细的基础上添加查询条件时,就得使用GROUP BY

性能不同

如果去重的字段有索引,那么GROUP BYDISTINCT都可以使用索引,此情况下它们的性能是相同的。而当去重的字段没有索引时,DISTINCT的性能可能会高于GROUP BY,因为在MySQL 8.0之前,GROUP BY有一个隐藏的功能会进行默认的排序,这样就会触发filesort从而导致查询性能降低。

总结

大部分场景下DISTINCT是特殊的GROUP BY,但二者也有细微的区别,比如它们在查询结果集上、使用的具体业务场景上,以及性能上都是不同的。了解这些差异可以帮助我们根据实际需求选择更合适的方法。


http://www.kler.cn/a/464992.html

相关文章:

  • 【踩坑指南:2025年最新】如何在Linux(Ubuntu)启动第一个Scala Hello World程序(Scala3)
  • 腾讯云智能结构化 OCR:驱动多行业数字化转型的核心引擎
  • vue路由模式面试题
  • matlab时频分析库
  • IIS设置IP+端口号外网无法访问的解决方案
  • 基于深度学习算法的AI图像视觉检测
  • 力扣--LCR 167.招式拆解I
  • LeetCode7. 整数反转
  • 基于物联网的冻保鲜运输智能控制系统
  • MySQL实用SQL示例
  • 利用Java爬虫获取亚马逊国际按关键字搜索商品的实践指南
  • SQL偏移类窗口函数—— LAG()、LEAD()用法详解
  • Leetcode 从前序与中序遍历序列构造二叉树
  • B端UI设计规范是什么?
  • 汽车驾校转型做无人机执照培训详解, “驾” 起无人机培训新未来?
  • 大模型LLM-MMOE
  • leetcode 2658. 网格图中鱼的最大数目
  • 【20250101】Nature正刊:纯仿真强化学习得到外骨骼机器人的自适应控制策略
  • 深入浅出:Spring Boot 自定义消息转换器的实现与应用
  • 【单片机】NPN+PNP组成的高边开关无法完全关断
  • SpringBoot与Vue实现WebSocket心跳机制
  • 华为数通考试模拟真题(附带答案解析)题库领取
  • GAN对抗生成网络(二)——算法及Python实现
  • 多输入多输出 | Matlab实现WOA-CNN鲸鱼算法优化卷积神经网络多输入多输出预测
  • C# 设计模式(行为型模式):责任链模式
  • 分布式微服务项目___某污水处理项目