当前位置: 首页 > article >正文

解决hive表新增的字段查询为空null问题

Hive分区表新增字段,查询时数据为NULL的解决方案

由于业务拓展,需要往hive分区表新增新的字段,hive版本为2点多。

于是利用

alter table table_name add columns (col_name string )

新增字段,然后向已存在分区中插入数据,以为问题就解决了。

结果一查询发现新增字段的值全部为null。

这是怎么回事,怀疑是不是数据没有插入成功,于是查看日志确实是写入成功了,后换了impala和presto 两种引擎查询,发现两个结果都有值,如果直接到目录下查看数据文件会发现确实有值。

经排查,这是hive 的bug,用Hive版本比较低,会出现这个问题。据说最新的版本已经没有这个问题了(未验证)。

1. 问题追溯
为了复现这个问题,今天把这个问题追溯下。

1.新增一张学生测试表并向分区插入数据

create table if not exists test.student(id string comment '编号',user_name string comment '姓名',age int comment '年龄')comment '学生表'partitioned by(dt string comment '分区字段,格式yyyymmdd')stored as parquetTBLPROPERTIES('parquet.compression'='SNAPPY');

其中dt为分区,往学生表新增一个分区,并插入记录测试。

insert overwrite table test.student partition (dt='20220112') select user_id, '小爱',7 from test.table_name limit 10

2.新增两个字段 class 、grade 并插入数据

alter table test.student add columns(class string);alter table test.student add columns(grade string);
insert overwrite table test.student partition (dt='20220112') select user_id, '小爱',7,'1班','一年级' from test.table_name limit 10

3.查询数据

select * from test.student where dt ='20220112'

在这里插入图片描述

发现刚新增的class grade 字段显示都为NULL,并不是我们期望。

但impala和presto 两种引擎查询是能够正常显示的。

4.再往表新增’20220113’分区

insert overwrite table test.student partition (dt='20220113') select user_id, '小爱',7,'1班','一年级' from test.table_name limit 10

5.再查询这个分区

select * from test.student where dt ='20220113'

在这里插入图片描述

发现查询

select * from test.student where dt ='20220112'

还是依旧为NULL

由此我们可以得出这样一个结论

分区在增加字段前存在,新增字段值为NULL的情况

分区在增加字段前不存在,正常

3.解决方案
1.删除分区或者重新建表

这种情况分区较多亦或是数据量较大,都不推荐使用。

2.针对分区执行

对于在增加字段前已经存在的分区,需要再执行

alter table test.student partition(dt='20220112') add columns(grade string);alter table test.student partition(dt='20220112') add columns(class string);

我们再来看看’20220112’分区字段class和grade显示是否正常

select * from test.student where dt ='20220112'

在这里插入图片描述

从结果我们可以看到,已经正常显示了。

3.在往表添加字段时加上cascade

第二种方案,要是我们表里有很多分区,这样处理就显得有些繁琐了,不知有没有更优雅的处理方式,答案是肯定的,那就是在修改列时加上cascade

alter table test.student add columns (`number` string ) cascade;
insert overwrite table test.student partition (dt='20220113') select user_id, '小爱',7,'1班','一年级','N202209010101' from test.table_name limit 10
select * from test.student where dt ='20220113'

在这里插入图片描述

总结:

1.对于在增加字段前已经存在的分区,需要再执行

alter table test.student partition(dt='20220112') add columns(column_name string);

2.在往表添加字段时加上cascade

alter table test.student add columns (column_name string ) cascade;

个人觉得第二种解决方案操作比第一种要方便得多。推荐使用。

由于笔者知识及水平有限,文中错漏之处在所难免,如有不足之处,欢迎交流。


http://www.kler.cn/a/229064.html

相关文章:

  • 【Hugging Face】下载开源大模型步骤
  • AI编程工具使用技巧——通义灵码
  • Vue2+OpenLayers实现折线绘制功能(提供Gitee源码)
  • Android-V lmkd 中的那些属性值
  • 精度论文:【Focaler-IoU: More Focused Intersection over Union Loss】
  • RPC 简介
  • 2.5 作业
  • 从 AGP 4.1.2 升级到 7.5.1——动态添加仓库
  • 【Java】小白友好的MyBatis基础XML开发学习笔记
  • 什么是Java中的弱引用(Weak Reference)和软引用(Soft Reference)?
  • 【漏洞复现】大华智慧园区综合管理平台bitmap接口存在任意文件上传漏洞
  • 某赛通电子文档安全管理系统 UploadFileToCatalog SQL注入漏洞复现
  • 问题:塑瓷后的牙冠要比完成的牙冠大() #学习方法#其他
  • Java入门之JavaSe(韩顺平p1-p?)
  • AI应用开发-python实现redis数据存储
  • LeetCode、1137. 第 N 个泰波那契数【简单,动态规划】
  • 十分钟掌握Go语言==运算符与reflect.DeepEqual函数处理interface{}值的比较规则
  • C++泛型编程:类模板(下)
  • 【Iceberg学习一】什么是Iceberg?
  • 飞天使-k8s知识点12-kubernetes散装知识点1-架构有状态资源对象分类
  • PostgreSQL解决序列(自增id)自动增长冲突
  • 电路设计(10)——超温报警电路的proteus仿真
  • Windows10安装VScode + mingw64 + GSL
  • 【C++搜索二叉树】
  • HuggingFace库中BERTForxxx模型代码详细分析 使用BERT进行无监督预训练
  • 第97讲:MHA高可用集群模拟主库故障以及修复过程