当前位置: 首页 > article >正文

hive分区分桶、数据倾斜总结

一、hive的基本概念

hive是一个构建在hadoop上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表并提供数据查询功能

二、hive的特点

(1)数据是存储在hdfs上

(2)底层是将sql转换为MapReduce任务进行计算

(3)执行程序是运行在yarn上

三、hive表数据如何修改

(1)可以删除原表,然后新建一个与原表的表名、表结构相同的表,然后将需要修改的值更改后重新复制到新表;

1) 创建一个新表,其结构与原表相同

CREATE TABLE tmp_table ...;

2) 使用INSERT语句,将原表中的数据复制到新表,并对需要修改的值进行更改

INSERT INTO TABLE tmp_table
SELECT col1,col2,CASE WHEN col3=修改值 THEN 新值 ELSE col3 END,col4,...
FROM src_table;

 3) 删除原表

DROP TABLE src_table;

4) 将新表重命名为原表的名字

ALTER TABLE tmp_table RENAME TO src_table;
(2)也可以使用insert overwrite语句,结合where条件对需要修改的值更改过后,再将原表数据覆盖回去。
INSERT OVERWRITE TABLE src_table
SELECT col1,col2,col3,col4,... FROM src_table WHERE col3!=修改值
UNION ALL
SELECT col1原来值,col2原来值,col3新值,col4原来值,...;

四、hive分区表和桶表的区别

区别:从表现形式上来看:分区表是一个目录,而分桶表是一个文件;

从数量上来看:分区表的分区个数是可以增长的,而分桶表一旦指定完之后就不能增长;

从依据上来看:分区表需要手动添加分区,分区时依据的是表外字段,而分桶表是按照表内字段

从数据分布上来看:分区表在根据分区字段进行分区时可能会导致数据分布不均的情况,而分桶表是根据 hash值进行划分的,数据分布比较均匀。

五、如何给hive表增加一个分区

增加分区:通过alter修改表信息,然后在表名后面通过add添加一个经过判断后不存在的分区

删除分区同上,是通过drop删除一个经过判断后存在的分区

六、hive的数据倾斜

数据倾斜

hive的数据倾斜通常出现在MapReduce处理任务时,在不同节点并行处理数据的过程中,由于某一节点处理的数据远超其它节点的数据时,会导致此节点处理数据的时间远超出其它节点的时间甚至导致任务失败

原因及解决方案

(1)表关联时,关联字段null值过多;可以将空字段与非空字段分开检索,然后用union all合并查询结果,也可以使用外连接关联两表,然后对关联字段为的进行赋值,使其不为空;

(2)关联字段的数据类型不同;把不同的数据类型转为相同的;

(3)group by的维度过小,导致reduce处理一个分区的数据远多于另一个分区的数据;可以开

启Map端的聚合操作并设置groupby参数。


http://www.kler.cn/a/428495.html

相关文章:

  • 构建高效稳定的网络环境
  • 【前端知识】简单易懂的vue前端页面元素权限控制
  • 高并发内存池_CentralCache(中心缓存)和PageCache(页缓存)申请内存的设计
  • 深入探索 Nginx 的高级用法:解锁 Web 服务器的强大潜能
  • 图片生成Prompt编写技巧
  • Windows电脑安装USB Redirector并实现内外网跨网USB共享通信访问
  • HTTP中GET和POST详细理解
  • webpack插件: CopyWebpackPlugin
  • 2024/12/8周报
  • 【5G】架构 Architecture
  • 智能系统复习
  • web复习(一)
  • 嵌入式蓝桥杯学习5 定时中断实现按键
  • 【Python]深入Python日志管理:从logging到分布式日志追踪的完整指南
  • 使用 pyperclip 进行跨平台剪贴板操作
  • SpringBoot中Selenium详解
  • RPA系列-uipath 学习笔记1
  • C++ Lambda表达式:语法、特点和原理
  • C++ 完美转发和左值右值
  • Oracle 12C DataGuard GAP 修复过程(RECOVER … FROM SERVICE)
  • 关于利用 EtherNet/IP 转 Profinet 网关模块实现罗克韦尔变频器接入西门子 PLC 的配置范例
  • Few Examples in MetaGPT
  • ORB-SLAM3源码学习:ImuTypes.cc:Eigen::Matrix3f RightJacobianSO3计算右雅可比矩阵
  • 跟着问题学15——GRU网络结构详解及代码实战
  • 计算机毕业设计hadoop+spark+hive图书推荐系统 豆瓣图书数据分析可视化大屏 豆瓣图书爬虫 知识图谱 图书大数据 大数据毕业设计 机器学习
  • 【集群划分】含分布式光伏的配电网集群电压控制【33节点】