当前位置：首页 > article >正文

Hive查询之排序

article 2025/2/28 13:38:48

Hive查询之排序

文章目录

Hive查询之排序
- 写在前面
- Hive查询之排序
- - 全局排序（Order By）
  - 按照别名排序
  - 多个列排序
  - 每个Reduce内部排序（Sort By）
  - 分区（Distribute By）
  - Cluster By

写在前面

Linux版本：CentOS7.5
Hive版本：Hive-3.1.2

Hive查询之排序

全局排序（Order By）

Order By：是 全局排序，只有 一个 Reducer
（1）使用 ORDER BY 子句排序

ASC（ascend）: 升序（默认）
DESC（descend）: 降序

（2）ORDER BY 子句在SELECT语句的结尾

（3）案例实操

查询员工信息按工资升序排列

hive (default)> select * from emp order by sal;

查询员工信息按工资降序排列

hive (default)> select * from emp order by sal desc;

按照别名排序

按照员工薪水的2倍排序

hive (default)> select ename, sal*2 twosal from emp order by twosal;

多个列排序

按照部门和工资联合字段进行升序排序

hive (default)> select ename, deptno, sal from emp order by deptno, sal ;

每个Reduce内部排序（Sort By）

Sort By：对于大规模的数据集order by的效率非常低。在很多情况下，并不需要全局排序，此时可以使用sort by。
Sort by为每个reducer产生一个排序文件。每个Reducer内部进行排序，对全局结果集来说不是排序。

设置reduce的个数

hive (default)> set mapreduce.job.reduces=3;

查看设置reduce的个数

hive (default)> set mapreduce.job.reduces;

根据部门编号降序查看员工的信息

hive (default)> select * from emp sort by deptno desc;

将查询的结果导入到文件中（按照部门编号降序排序）

hive (default)> insert overwrite local directory '/opt/module/hive/datas/sortby-result'
 select * from emp sort by deptno desc;

分区（Distribute By）

Distribute By：在有些情况下，我们需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。distribute by 子句可以做这件事。distribute by类似MR中partition（自定义分区），进行分区，结合sort by使用。

对于distribute by进行测试，一定要分配 多reduce 进行处理，否则无法看到distribute by的效果。

案例实操：

先按照部门编号分区，再按照员工编号降序排序。

hive (default)> set mapreduce.job.reduces=3;
hive (default)> insert overwrite local directory '/opt/module/hive/datas/distribute-result' select * from emp distribute by deptno sort by empno desc;

注意：

distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后，余数相同的分到一个区。
Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。

Cluster By

当 distribute by 和 sort by 字段相同时，可以使用 cluster by 方式。

同时，我们要知道：cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。

以下两种写法等价

hive (default)> select * from emp cluster by deptno;
hive (default)> select * from emp distribute by deptno sort by deptno;

注意：按照部门编号分区，不一定就是固定死的数值，可以是20号和30号部门分到一个分区里面去。

全文结束！！！

查看全文

http://www.kler.cn/a/550696.html

周雨彤：用角色与生活，诠释审美的艺术

轻量级在线ETL数据集成工具架构设计与技术实现深度剖析

Springboot接口返回的时间和数据库差了八小时

Go语言的云计算

【JavaEE进阶】MyBatis入门

【Python爬虫(10)】解锁XPath：Python爬虫的精准导航仪（京东、淘宝实例）

DeepSeek本地企业知识库搭建思路

机器学习_17 K近邻算法知识点总结

【R语言】GitHub Copilot安装-待解决

【ETL】从理论到Python实践的数据处理

vue 判断字符串开头是http或者https

如何通过阿里云内容安全在数字时代获得“第一防线”？

NBT群落物种级丰度鉴定新方法sylph

Qt常用控件之按钮QPushButton

【Java基础】数组性能优化

STM32 CubeMx配置串口收发使用DMA并调用Idle模式（二）

qt小项目：表白窗口（窗口，信号与槽）

UI自动化教程 —— 元素定位技巧：精确找到你需要的页面元素

Node.js 中的 fs 模块详解

AI时代：前端开发的职业发展路径拓宽

Hive查询之排序

文章目录

写在前面

Hive查询之排序

全局排序（Order By）

按照别名排序

多个列排序

每个Reduce内部排序（Sort By）

分区（Distribute By）

Cluster By

相关文章：