MySQL | group by 用法
例如:现在运营想要对每个学校不同性别的用户活跃情况和发帖数量进行分析,请分别计算出每个学校每种性别的用户数、30天内平均活跃天数和平均发帖数量。
用户信息表:user_profile
30天内活跃天数字段(active_days_within_30)
发帖数量字段(question_cnt)
回答数量字段(answer_cnt)
id | device_id | gender | age | university | gpa | active_days_within_30 | question_cnt | answer_cnt |
1 | 2138 | male | 21 | 北京大学 | 3.4 | 7 | 2 | 12 |
2 | 3214 | male | 复旦大学 | 4.0 | 15 | 5 | 25 | |
3 | 6543 | female | 20 | 北京大学 | 3.2 | 12 | 3 | 30 |
4 | 2315 | female | 23 | 浙江大学 | 3.6 | 5 | 1 | 2 |
5 | 5432 | male | 25 | 山东大学 | 3.8 | 20 | 15 | 70 |
6 | 2131 | male | 28 | 山东大学 | 3.3 | 15 | 7 | 13 |
7 | 4321 | male | 26 | 复旦大学 | 3.6 | 9 | 6 | 52 |
你的查询返回结果需要对性别和学校分组,示例如下,结果保留1位小数,1位小数之后的四舍五入:
gender | university | user_num | avg_active_day | avg_question_cnt |
male | 北京大学 | 1 | 7.0 | 2.0 |
male | 复旦大学 | 2 | 12.0 | 5.5 |
female | 北京大学 | 1 | 12.0 | 3.0 |
female | 浙江大学 | 1 | 5.0 | 1.0 |
male | 山东大学 | 2 | 17.5 | 11.0 |
求每个学校每种性别的用户数、30天内平均活跃天数和平均发帖数量
问题分解:
- 限定条件:无;
- 每个学校每种性别:按学校和性别分组:
group by gender, university
- 用户数:count(device_id)
- 30天内平均活跃天数:avg(active_days_within_30)
- 平均发帖数量:avg(question_cnt)
select
gender,
university,
count(device_id) as user_num,
avg(active_days_within_30) as avg_active_days,
avg(question_cnt) as avg_question_cnt
from user_profile
group by gender,university
该题涉及到了group by的分组计算,使用group by 时,数据库会根据一个或多个列的值将结果集分为多个分组,在每个分组内可以独立地使用聚合函数。
tips:
五、注意事项
- 选择非聚合列:在 SELECT 子句中,除了聚合函数计算的列外,所有列都应该在 GROUP BY 子句中列出。如果你选择了一个没有包含在GROUP BY 中的列,这通常会导致错误,因为没有聚合函数应用于它,数据库不知道如何为每个组选择一个值。
- NULL 值的分组:在分组时,GROUP BY 会将 NULL 值视为相同的值进行分组。这意味着所有 NULL 值会被归入同一组。
- 聚合函数的使用:在 SELECT 语句中可以使用多种聚合函数来计算每个组的统计信息,如 SUM()、AVG()、MAX()、MIN() 和 COUNT()。每个聚合函数都有其特定用途,选择合适的聚合函数可以帮助你获得需要的信息。
- HAVING 子句:如果你需要对分组后的结果进行过滤,应该使用 HAVING 子句而不是 WHERE 子句。WHERE子句在数据分组前进行过滤,而 HAVING 子句在数据分组后对分组的结果进行过滤。
- 性能考虑:GROUP BY 操作可能会涉及大量的数据处理,特别是在处理大型数据集时。合理地选择分组列和优化聚合函数的使用可以帮助提高查询的性能。
- 分组顺序:在 GROUP BY 子句中列出多个列时,数据首先按照第一个列的值进行分组,然后是第二个列的值,以此类推。分组顺序可能会影响到输出结果的排序,但不会影响到分组聚合的结果。
- 与ORDER BY共用:虽然 GROUP BY 会对输出结果进行一定的排序(按照分组列排序),但如果你需要特定的排序顺序,应明确使用 ORDER BY 子句。