hive 统计各项目下排名前5的问题种类
实现指定某项目下的数据效果图如下所示:
其中 ABCDE 为前5名的问题种类,其中A问题有124个(出现了124次)
数据说明:
- 整个数据集 包含很多项目
- 一个项目 包含很多问题
- 一个问题 选项 可认为是 类别值,所有出现的问题都落在这些类别范围内
需求梳理:前5名的排名依据于 问题数量,而不是按照某字段排序,而问题数量是按照 项目 + 问题 分组后统计的数量。
分步处理:
1.先分组统计,查询数据(屏蔽真实表和字段,但逻辑不变)
select
项目
, 问题
,count(*) as num
from 表
GROUP BY 项目, 问题
结果:
可以看到上述部分截图中 有3个项目,分别是 0001/0009/0002,
其中 前2行和后2行都是 项目 0001的数据,表示它下面的4个问题种类 以及 统计数量。
2.把上述结果作为一张逻辑表,按照其中的数量字段 使用开窗函数 降序排序:
SELECT * FROM
(
SELECT 项目, 问题, 数量
,row_number() over(partition BY 项目 order by 数量 desc) as rn
FROM
(
select
项目
, 问题
,count(*) as 数量
from 表名
GROUP BY 项目, 问题
) x
) x8c
结果如下所示:这是项目 0001 下排名前10的 问题 + 数量
项目0004的数据。。
到这一步,我们得到了每个项目下 的 所有问题,并且 问题按 数量倒序排名,还差最后一步:每个项目,只取排名前5的问题数据。
- 其实,我们只需要在上一步的sql 中 加上 where 条件过滤即可:
where 排名 <= 5
FYI: 根据业务相应调整。
SELECT * FROM
(
SELECT 项目, 问题, 数量
,row_number() over(partition BY 项目 order by 数量 desc) as rn
FROM
(
select
项目
, 问题
,count(*) as 数量
from 表名
GROUP BY 项目, 问题
) x
) x8c
where rn <= 5