当前位置: 首页 > article >正文

Hive默认分割符、存储格式与数据压缩

目录

    • 1、Hive默认分割符
    • 2、Hive存储格式
    • 3、Hive数据压缩


1、Hive默认分割符


Hive创建表时指定的行受限(ROW FORMAT)配置标准HQL为:

...
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\u0001'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
TBLPROPERTIES ('key'='value')
LOCATION '/user/hive/warehouse/...'

Hive默认分割符规则如下:

分隔符受限项HQL语法
^A(\001)字段(列)分隔符FIELDS TERMINATED BY
^B(\002)集合(array、struct、map)元素(map为键值对)间的分隔符COLLECTION ITEMS TERMINATED BY
^C(\003)map元素键与值间的分隔符MAP KEYS TERMINATED BY
\n行分隔符LINES TERMINATED BY

2、Hive存储格式


Hive支持的存储数据的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。企业中使用ORC较多

更多关于存储格式的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html

3、Hive数据压缩


Hive的数据压缩格式通过TBLPROPERTIES关键字指定

SNAPPY压缩在企业中使用较多

1) ORC存储格式的SNAPPY压缩:

STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY")

2) PARQUET存储格式的SNAPPY压缩:

STORED AS PARQUET
TBLPROPERTIES ("parquet.compression"="SNAPPY")

更多关于数据压缩的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html



http://www.kler.cn/news/133636.html

相关文章:

  • Linux环境的Windows子系统
  • C语言基础篇4:变量、存储、库函数
  • 【Seata源码学习 】篇三 seata客户端全局事务开启、提交与回滚
  • 【hive-解决】HiveAccessControlException Permission denied: CREATEFUNCTION
  • Linux 网络:PMTUD 简介
  • 麦克风阵列入门
  • Linux - 物理内存管理 - memmap
  • java游戏制作-拼图游戏
  • Qt控件样式表
  • shell之file命令
  • 指南:关于帮助中心需要注意的一些细节
  • java大作业中的文件操作
  • pnpm的安装及其使用
  • Nginx(七) root和alias的区别及详细测试
  • C# 实现腾讯云多路直播流的云端混合录制
  • Python学习笔记--Python关键字yield
  • 潇洒郎: 小白一次性成功——小米红米手机解BL锁+ ROOT-刷面具
  • CentOS挂载:解锁文件系统的力量
  • websocket学习笔记【springboot+websocket聊天室demo】
  • PostgreSQL 数据类型
  • 基于JavaWeb+SSM+社区居家养老服务平台—颐养者端微信小程序系统的设计和实现
  • 软件质量保护与测试(第2版)学习总结第十三章 集成测试
  • 切换阿里云ES方式及故障应急处理方案
  • vue之Error: Unknown option: .devServer.
  • Panda3d 动画序列
  • 七、文件包含漏洞
  • Excel查询时用vlookup或者xlookup时,虽然用的参数选择的是精确匹配,但是发现不能区分大小写,应该如何解决?
  • 【C/PTA】数组进阶练习(三)
  • 系列七、JVM的内存结构【堆(Heap)】
  • 【Rust】6、练习:自己实现 ls