当前位置: 首页 > article >正文

hive中的四种排序类型

1、Order by 全局排序

ASC(ascend): 升序(默认)
DESC(descend): 降序

注意 :只有一个 Reducer,即使我们在设置set reducer的数量为多个,但是在执行了order by语句之后,当前此次的运算还是只有1个reducer,因为order by要做的是全局分区。(开窗函数内是分区内排序,不在此问题)

验证:

set mapreduce.job.reduces=3;
select * from stu_scores order by math;

总结:order by 语句的运行效率较低,一般要配合limit 使用。

2、Sort By 在每一个Reduce的job中进行排序

设置reduce 的job数为3

set mapreduce.job.reduces=3;

查看设置的reduce 的job数量

set mapreduce.job.reduces

测试sort by:

select * from stu_scores sort by math;

备注:在3个reduce job中分别进行排序。

3、Distribute By 分区(结合 sort by 使用)

有些场景我们需要控制某些特定行应该到同一reducer,做一些聚集操作。

distribute by 类似 MR 中 partition(自定义分区),进行分区,结合 sort by 使用。

设置reduce 的job数为3

set mapreduce.job.reduces=3;

查看设置的reduce 的job数量

set mapreduce.job.reduces

测试 distribute by....sort by

# 按照stu_id分区,分区内使用math排序

select * from stu_scores distribute by stu_id sort by math;

分区逻辑:根据distribute by 后的字段hash码与reduce 的个数进行模数后,决定分区路由。

4、cluster by

当 distribute by 和 sort by 字段相同时,可以使用 cluster by 方式。但是排序只能是升序排序,不能指定排序规则为 ASC 或者 DESC。

select * from stu_scores cluster by math;
select * from stu_scores distribute by math sort by math;

总结: cluster by 等价于distribute by 和 sort by 字段的升序排序。


http://www.kler.cn/a/456948.html

相关文章:

  • JVM实战—6.频繁YGC和频繁FGC的后果
  • 前端如何排查内存泄漏
  • 机器学习作业 | 泰坦尼克号生存的预测任务
  • 安装软件尝试
  • Oracle 数据库 dmp文件从高版本导入低版本的问题处理
  • lua和C API库一些记录
  • SVN和Git
  • Day1 微服务 单体架构、微服务架构、微服务拆分、服务远程调用、服务注册和发现Nacos、OpenFeign
  • 代码解析:安卓VHAL的AIDL参考实现
  • Android 自定义shell命令
  • 4.银河麒麟V10(ARM) 离线安装 MySQL
  • 在线学习平台-项目技术点-前台
  • Mono里运行C#脚本6—mono加载EXE文件和DLL文件保存的HASH表
  • PPO(近端策略优化)算法基本原理
  • 跨境办公的网络如何选择?
  • [Rust开发]actix_webmiddleware 中间件
  • CSS系列(42)-- Backdrop Filter详解
  • 基于深度学习的图像超分辨率重建
  • LeetCode 349. 两个数组的交集 (C++实现)
  • nginx反向代理单台 Web 服务器实验
  • (长期更新)《零基础入门 ArcGIS(ArcMap) 》实验五----土地整治(超超超详细!!!)
  • elasticsearch 杂记
  • Android `android.graphics` 包深度解析:架构与设计模式
  • Unity:武器部件指示 / 高级自定义UI组件开发 / Unity Job加速
  • Linux -Vim
  • SpringMVC学习(二)——RESTful API、拦截器、异常处理、数据类型转换