当前位置：首页 > article >正文

【大数据学习 | HBASE】habse的表结构

article 2025/2/21 3:53:59

在使用的时候hbase就是一个普通的表，但是hbase是一个列式存储的表结构，与我们常用的mysql等关系型数据库的存储方式不同，mysql中的所有列的数据是按照行级别进行存储的，查询数据要整个一行查询出来，不想要的字段也需要查询出来，hbase是列式存储的方式实现的，它的一个列的所有行都是存储为一份文件，在大数据场景中我们一般一个表的字段都会比较多，那么我们业务很多情况下是不需要查询出来所有的列的，所以列式存储会大大的减少数据查询带来的消耗问题，为我们的查询增加效率。

我们已经知道了hbase是列级别存储的，那么我们看具体的存储结构

表中的数据结构rowkey是hbase表自带的主键，每个表中都会存在这样一个主键，它的格式为存储为Byte数组，什么样的数据都可以充当为rowkey进行存储，但是在存储的时候要转换为byte数组进行存储，并且数据是按照rowkey的字典顺序进行排序的

表中是存在列的，但是这个列以列族进行分类，比如info列族中存在三个列id,name,age 相应的列的存储数据类型也可以是任意的类型，但是都会以byte数组形式存储在hbase中

我们在使用hbase的表的时候，我们就按照上图的表格显示进行使用就可以了，但是实际的底层存储却不是我们所看到的样子

首先我们先要知道，hbase的表的数据操作分为两个类型，一个是put一个是delete，put是更新或者插入新的数据都使用这个命令它会自己覆盖数据，delete是删除数据，hbase的底层数据存储是hdfs，hdfs中的数据是不允许我们随意的进行操作和修改的，那么我们的所有操作都必须要先放入到自己的内存中然后在将数据写出到hdfs中，和hdfs中的数据进行合并处理，所以我们在hbase中真正存储的数据并不是按照表的样子进行存储的，底层是按照k-v类型存储到hbase中的，并且写出到hdfs中

我们在上面的表中可以看到数据的存储是按照表格形式存储的，但是表格形式的存储在hbase的底层数据中并不是真正存在的，而是kv类型存储的，其中存储的数据包含以下几个部分，key的组成是[rowkey主键，列族，列，时间戳和操作类型]，其中rowkey是唯一性的主键，每个数据都必须和主键相关联，列族和列组成了相对应的存储描述，时间戳用于做数据的修改保存，用于识别最新的数据是什么，而不像是关系型数据库它的每个操作都会直接写出到数据上，我们只能在上层操作，并且操作完毕以后将数据一下写出到hdfs中进行最终保存，所以时间戳是必备项，同于我们识别数据的版本，能够认识到数据的变化流程，找出最新的数据，type类型用户识别操作是什么，从而最后得出数据最新值，value是我们每次操作对应的值

而且因为数据在底层存储是按照kv类型进行存的，那么我们会发现在不同的行的数据可能字段并不相同，并不是像关系型数据库中，列是固定死的，从而我们发现hbase的数据存储中能够固定死的就只有列族信息

在我们操作和使用hbase之前，先要知道以下几个比较重要的关键词

namespace