当前位置: 首页 > article >正文

Hive 查询各类型专利 Top 10 申请人及对应的专利申请数

目录

一、需求背景

二、实现思路

三、Hive SQL 实现

语句解析

注意事项

四、结果展示

五、总结


在实际的数仓项目中,经常需要对数据进行统计分析,比如在专利管理系统中,需要对不同类型的专利进行申请人排名分析。本文将介绍如何在 Hive 中通过 SQL 查询实现各类型专利的 Top 10 申请人统计。

一、需求背景

假设有一张专利明细表 t_patent_detail,其中记录了专利号、专利名称、专利类型、申请时间、授权时间和申请人等字段。具体字段如下:

  • patent_id:专利号
  • patent_name:专利名称
  • patent_type:专利类型(包括发明创造、实用新型等)
  • aplly_date:申请时间
  • authorize_date:授权时间
  • apply_users:申请人(多个申请人用分号 ; 隔开)

t_patent_detail 数据样例如下图所示:

目标是查询出各类型专利中申请次数最多的 Top 10 申请人及对应的专利申请数量。

二、实现思路

  1. 申请人字段拆分apply_users 字段包含多个申请人,用分号 ; 分隔。需要先使用 LATERAL VIEW EXPLODE 函数将申请人字段拆分成多行,每行一个申请人。
  2. 分组统计:对每个专利类型中的申请人进行统计,计算每位申请人的专利申请次数。
  3. 排名:使用 RANK() 函数对每个专利类型中的申请人申请次数进行排名,并筛选出前 10 名。

三、Hive SQL 实现

以下是实现该需求的 Hive SQL 查询语句:

WITH temp AS (
    -- 将申请人字段拆分成单独的记录
    SELECT d.patent_type, t1.coll AS apply_name
    FROM t_patent_detail d
    LATERAL VIEW EXPLODE(SPLIT(d.apply_users, ';')) t1 AS coll
)SELECT apply_name AS `申请人`, 
       COUNT(*) AS `专利申请数`, 
       RANK() OVER(PARTITION BY patent_type ORDER BY COUNT(*) DESC) AS `专利数排名`
FROM temp
GROUP BY apply_name, patent_type
HAVING RANK() OVER(PARTITION BY patent_type ORDER BY COUNT(*) DESC) <= 10;

语句解析

  1. LATERAL VIEW EXPLODE(SPLIT(d.apply_users, ';')) t1 AS coll:将 apply_users 字段中的申请人用分号 ; 分割开来,生成多行,每行包含一个申请人名字。

  2. COUNT(*):对每个申请人的专利数量进行计数,统计申请次数。

  3. RANK() OVER(PARTITION BY patent_type ORDER BY COUNT(*) DESC):通过 RANK() 函数对每个专利类型中的申请人按申请次数进行排名。

  4. HAVING 子句:筛选出每种专利类型中申请次数最多的前 10 名。

注意事项

  • 在使用 RANK() 时,确保对 PARTITION BYORDER BY 的理解。PARTITION BY patent_type 表示对不同的专利类型分别统计排名,ORDER BY COUNT(*) DESC 表示按照申请次数降序排列。
  • 使用 LATERAL VIEW EXPLODE 处理多值字段时要小心,可能会导致数据量增加,应确保 Hive 集群的性能可以承受。

四、结果展示

执行上述 SQL 查询语句后,将会得到如下的结果:

申请人专利申请数专利数排名
申请人A151
申请人B122

每种专利类型下的申请人按照申请次数降序排列,展示出 Top 10 的申请人及其申请次数。

五、总结

通过本文,我们学习了如何使用 Hive 的 SQL 来拆分多值字段并进行分组统计和排名。该方法适用于类似包含多值字段的分析需求,能够帮助我们快速得到各类型专利的 Top 10 申请人,为数据分析和决策提供支持。


http://www.kler.cn/a/385248.html

相关文章:

  • 深度学习笔记10-多分类
  • 【C】无类型指针及函数指针
  • 【362】基于springboot的在线租房和招聘平台
  • vue实现websocket实时短消息通知
  • Springcloud高校选课管理系统-计算机毕业设计源码27115
  • 【MacOS实操】如何基于SSH连接远程linux服务器
  • 记录offcanvas不能显示和关闭的修复方法
  • QT监控文件夹变化(文件增加、删除、改名)
  • B2C分销管理系统(源码+文档+部署+讲解)
  • C++20 STL CookBook 4:使用range在容器中创建view
  • c# 动态lambda实现二级过滤(多种参数类型)
  • 『VUE』21. 组件注册(详细图文注释)
  • Kubernetes时代的APM部署革新:基于Webhook的Agent动态注入
  • docker镜像文件导出导入
  • GPU服务器厂家:AI 赋能科学研究的创新突破
  • 1.每日SQL----2024/11/7
  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-30
  • 为什么人工智能增强的威胁和法律不确定性成为风险主管最关心的问题
  • 5G智能对讲终端|北斗有源终端|北斗手持机|单兵|单北斗
  • Java | Leetcode Java题解之第543题二叉树的直径
  • 关于遥感影像BIL、BIP、BSQ你知道多少?给一个二进制文件你会读取嘛~
  • uniapp使用腾讯即时通讯IM(复制即可使用)
  • 小白初入Android_studio所遇到的坑以及怎么解决
  • Java I/O流面试之道
  • 【JavaScript】网络请求之Promise fetch Axios及异步处理
  • C++【string类,模拟实现string类】