GaussDB高安全—全密态数据库
书接上文GaussDB高安全—数据保护,从数据透明加密方面解读了GaussDB数据库的高安全能力,本篇将从软硬融合全密态、端侧加密引擎、端侧密钥管理、轻量化语法解析等四方面继续介绍GaussDB数据库的高安全性能。
6 全密态数据库
全密态数据库是指对应用能够提供透明的加解密能力,在数据库系统中将数据的全生命周期以密文形式进行处理,同时密钥掌握在授权用户手中的数据库管理系统。当数据拥有者在客户端完成数据加密并发送给服务端后,即使攻击者借助系统脆弱点窃取用户数据时仍然无法获得有效、有价值的数据信息,从而起到保护数据隐私的能力。
由于整个业务数据流在数据处理过程中都是以密文形态存在,因此通过全密态数据库可以实现如下优势:
-
数据安全:数据产生后即刻加密,保护数据在传输、处理、存储、同步和备份等过程中的全生命周期安全。
-
管理可信:由授权用户掌握密钥,进行数据解密及验证,符合要求后,才可获得明文数据,而其他任何人员,包括操作系统、数据库的管理及运维人员都无法接触到明文数据。
-
法律合规:随着数据安全法律法规相继发布,密评、等保、分类分级等要求出台,对数据全生命周期的保护有了更严格的要求。
全密态数据库的总体架构示意图如图1 密态数据库总体架构所示,其完整形态包括纯软方案和软硬结合两种方案。纯软密态查询在数据库服务侧全程存储密文,通过密码学算法在密文空间直接查询运算,保障数据隐私不泄露。而软硬融合全密态则通过机密计算,借助可信执行环境(安全硬件隔离或逻辑隔离明文计算空间),通过访问控制,实现计算及数据对外“不可见”,防止数据泄露。两种方案都需要客户端加解密驱动的密钥管理、语法解析及加解密计算。
图1 密态数据库总体架构
纯软密态等值查询
纯软密态查询在数据库服务侧全程存储密文,通过密码学算法在密文空间直接对密文进行查询运算,保障数据隐私不泄露。软件方案可以不依赖于硬件能力,也不需要在服务侧获取密钥对数据进行解密,直接依赖于可直接查询和操作密文的密码学算法。
全密态数据库支持使用AEAD_AES_256_CBC_HMAC_SHA_256、AEAD_AES_128_CBC_HMAC_SHA256、AES_256_GCM、AEAD_AES_256_CTR_HMAC_SHA256和国密算法SM4_SM3算法来加密数据库中的数据。同时,其还支持确定性加密和随机加密算法,其中,仅确定性加密支持密态等值查询。
如下,以AEAD_AES_256_CBC_HMAC_SHA_256算法为例,为给定的明文值计算密文值。
密钥派生
用户在创建CEK密钥时,ENCRYPTED_VALUE为用户指定的密钥口令,密钥口令长度范围为28 ~ 256个字符。28个字符派生出来的密钥安全强度满足AES128。若用户需要用AES256,密钥口令的长度需要39个字符。如果不指定,则会自动生成256bit的密钥。
CREATE COLUMN ENCRYPTION KEY column_encryption_key_name WITH VALUES ( CLIENT_MASTER_KEY = client_master_key_name, ALGORITHM = algorithm_type[, ENCRYPTED_VALUE = encrypted_value] );
在确定性加密中,加解密驱动使用HKDF派生算法,根据root_key和硬编码密钥材料,派生出iv_key、enc_key、mac_key三个密钥。
图2
产生初始化向量(iv)
对于“确定性加密”,使用HMAC-SHA-256算法,输入iv_key和明文数据,产生对应明文数据的初始化向量值。
对于“随机加密”,初始化向量值是由RAND_bytes随机生成的。
1.计算AES_256_CBC加密密文,使用PKCS7填充
aes_256_cbc_ciphertext = AES-CBC-256( enc_key , iv , plaintext ) with PKCS7 padding
2.使用HMAC-SHA-256计算mac值
mac = HMAC-SHA-256( mac_key , algorithm_version_byte + iv + aes_256_cbc_ciphertext )
3.串联密文值,得到存储到数据库的列加密值
ciphertext = version_byte + cek_oid + mac + algorithm_version_byte + iv + aes_256_cbc_ciphertext
密态加密算法的数据膨胀如{REF _d0e354 \r \h \* MERGEFORMAT |图2-2}所示,不同的加密算法的数据膨胀率不一致,AEAD_AES_256_CBC_HMAC_SHA256 = AEAD_AES_128_CBC_HMAC_SHA256 = SM4_SM3 > AES_256_GCM > AEAD_AES_256_CTR_HMAC_SHA256。
算法膨胀率与数据大小有关,数据越大膨胀率越低。若数据类型为int8,单个明文数据大小为8 bytes, AEAD_AES_256_CBC_HMAC_SHA256、AEAD_AES_128_CBC_HMAC_SHA256、SM4_SM3算法单个数据大小为74 bytes, AES_256_GCM算法单个数据大小为46 bytes,AEAD_AES_256_CTR_HMAC_SHA256算法单个数据大小为34 bytes。
推荐使用AEAD_AES_256_CTR_HMAC_SHA256 和 AES_256_GCM加密算法。
图3 加密算法膨胀对比图
6.1 软硬融合全密态
软硬融合全密态功能是在密态等值查询的基础上,结合硬件机密计算技术,进一步实现密文数据的多种计算和查询功能,包括大小比较、数学运算、聚集函数计算等操作,丰富并完善密态数据库的功能,提升语法支持度。硬件方案主要依赖利用可信执行环境(Trusted Execution Environments,TEE)技术。该类技术通过在服务器上构建一个隔离且安全的容器环境Enclave,保证Enclave内计算和数据的机密性,从而可以安全地对密文进行解密后直接在明文上进行计算。使得攻击者即使在数据运行态也难以获取用户真实信息,从而提供更全面、更完整的数据隐私和安全的保护,总体架构如{REF _fig1378822025018 \r \h \* MERGEFORMAT |图4}所示。
目前的软硬融合全密态,暂未适配任何的安全硬件能力,仅作为密态等值查询的一个逃生通道使用,同时为未来升级到安全硬件方案做准备。在该逃生通道中,会将密钥传输到数据库中,在内存中对数据进行解密,从而实现密文字段的多种计算、查询功能,包括范围查询、排序等操作。
图4 软硬融合全密态架构图
密钥传输安全通道
软硬融合全密态需要将密钥传输到可信执行环境TEE中,而密钥传输安全通道可以通过使用RSA非对称加密算法和ECDH密钥协商算法对密钥传输通道进行保护。在每次密钥传输前,服务端的内存加解密模块生成RSA私钥和公钥,分别用于签名和客户端验签;客户端驱动和内存加解密模块使用ECDH协商出传输密钥。客户端驱动使用协商出来的传输密钥对数据密钥(CEK)进行加密并传输到服务端。待加密密钥传输完成后,销毁ECDH密钥和RSA密钥。
内存加解密模块运算框架
目前的软硬融合全密态,暂未适配任何的安全硬件能力,仅作为框架为未来升级到安全硬件方案做准备。在安全硬件方案中,数据传入TEE后,可以安全地对密文进行解密后直接在明文上进行计算。而内存加解密模块运算框架则是在数据传到内存中,对密文进行解密后直接在明文上进行计算。内存加解密模块运算框架主要包括两个部分,第一部分是运算内存管理,第二部分是密文运算算子调用。运算内存管理使用session级别变量,在密钥传输之前创建运算内存,在用户清理密钥或者session退出时,会自动清零该内存。密文运算在语法解析的时候识别并标记运算算子为密文算子,在函数执行的时候根据具体的运算类型调用运算函数并返回结果。
密文运算算子
在内存加解密模块运算框架中,需要调用不同运算算子执行不同的运算,目前软硬融合全密态仅支持数据排序和范围查询功能。在内存加解密模块中的执行流程包括:解密数据、进行计算、返回计算结果。如果计算结果是布尔值,则不需要加密;如果是字符串、数值类型,则需要对返回值进行加密后再返回。
6.2 端侧加密引擎
纯软密态查询和软硬融合全密态两种方案都需要客户端加解密驱动进行密钥管理、语法解析及加解密数据。
全密态数据库的核心是数据库在客户端发送SQL语句前解析用户输入的SQL语句,识别出已定义的敏感数据并自动对数据进行加密,客户端驱动接收到查询结果后,对结果中的密文数据进行自动化解密及处理。如{REF _d0e482 \r \h \* MERGEFORMAT |图5}所示,使用全密态数据库时,用户/应用程序向客户端驱动输入明文SQL语法,客户端驱动自动解析并加密敏感数据,然后发送密文SQL语法到服务端,服务端执行密文查询并将结果返回到客户端驱动,然后由客户端驱动自动解密密文结果并将明文结果返回给用户/应用程序。
全密态驱动在客户端进行语句处理,主要分为三个模块:密钥管理、语法解析、加解密驱动。
图5 客户端加解密流程
6.3 端侧密钥管理
客户端需要自动对SQL语句加密,对查询结果解密,自然需要一些额外的辅助信息,即密钥及加密字段元信息。例如:哪些字段是加密的,加解密数据时应该对应哪个加解密密钥,数据加解密密钥对应哪个主密钥等。
在全密态数据库中,通过实现三层密钥机制来保护密钥在客户端的安全存储、使用、导入、导出,减少因密钥损坏导致的数据丢失。
如{REF _d0e524 \r \h \* MERGEFORMAT |图6}所示,主密钥由外部密钥管理模块管理,列加密密钥由主密钥加密后存放在数据库服务端。当需要对列加密密钥进行加解密时,客户端加解密驱动会访问外部密钥管理模块。
图6 密钥管理模块
密钥管理模块的形态可以是各种各样的,包括密钥云服务、密钥工具、密钥组件和密码机等。目前,全密态数据库支持4种外部密钥管理方式,如{REF _d0e533 \r \h \* MERGEFORMAT |表1}所示。
表1 密钥管理支持类型
类型 | 名称 | 提供方 | 部署位置 | 接口类型 | 功能 |
工具 | gs_ktool | GaussDB | 数据库驱动侧 | 命令行命令、C动态库 | 创建、删除、查询、备份主密钥等 |
云服务 | huawei_kms | 华为公有云 | 公网 | 网页、restful接口 | 创建、删除、查询主密钥等,使用主密钥加解、解密 |
云服务 | his_kms | 华为IT服务 | 内网 | 网页、restful接口 | 创建、删除、查询主密钥,使用主密钥加解、解密 |
全密态数据库的密钥及加密字段元信息储存在服务端的系统表中,在使用的时候会预加载到客户端的缓存。下面逐一介绍具体的配置信息存储位置。
加密列信息 GS_ENCRYPTED_COLUMNS
GS_ENCRYPTED_COLUMNS系统表记录了全密态数据库中表的加密列的相关信息,每条记录对应一条加密列信息。有了加密列的配置信息,客户端在处理数据的时候,根据缓存中的加密列信息,判断SQL语句中的字段是否需要加密。该系统表记录如下信息:
-
加密列的标识信息:rel_id和column_name。
-
加解密处理信息:包括加解密密钥、加密之前的类型和加密之后的类型。
-
辅助信息:如加密列创建的时间。
具体各个字段的含义如下:
表2 GS_ENCRYPTED_COLUMNS字段
名称 | 类型 | 描述 |
rel_id | oid | 加密列所在表的oid,本处oid是指数据库内对象的唯一标识符。 |
column_name | name | 加密列的名称。 |
column_key_id | oid | 对该列进行加解密使用的列加密秘钥oid。 |
encryption_type | tinyint | 加密类型,取值及其含义如下: 1:即确定性加密。该类型时,相同的明文对应的密文也相同。 2:即随机加密。该类型时,同样的明文每一次加密得到的密文都不一样。 |
data_type_original_oid | oid | 加密列的原始数据类型的oid。 |
data_type_original_mod | integer | 加密列的原始数据类型的typmod信息。模式信息一般记录了变长字符串的长度,数值类型的精度等,是数据类型的一部分。 |
create_date | timestamp with time zone | 创建加密列的时间。 |
列加密密钥 GS_COLUMN_KEYS
GS_COLUMN_KEYS系统表记录密态等值特性中列加密密钥的相关信息,每条记录对应一条列加密密钥的信息。列加密密钥具体的数据储存在另一个系统表 GS_COLUMN_KEYS_ARGS中,该表以KV键值对的形式储存了列加密密钥的密文和指定的算法等。该系统表记录如下信息:
-
列加密密钥的标识信息:oid和column_key_name等。
-
列加密密钥处理信息:包括对应的主密钥等。
-
辅助信息:如创建时间、属主、访问权限等。
具体各个字段的含义如下:
表3 GS_COLUMN_KEYS字段
名称 | 类型 | 描述 |
oid | oid | 列加密密钥的唯一标识符。 |
column_key_name | name | 列加密密钥(CEK)的名称。 |
column_key_distributed_id | oid | 根据列加密秘钥的schema名和密钥名计算出的hash值,标识符。 |
global_key_id | oid | 列加密密钥对应的主密钥oid。 |
key_namespace | oid | 包含此列加密密钥(CEK)的命名空间oid。 |
key_owner | oid | 列加密密钥(CEK)的所有者oid。 |
create_date | timestamp with time zone | 创建列加密密钥的时间。 |
key_acl | aclitem[] | 创建该列加密密钥时所拥有的访问权限。 |
客户端主密钥 GS_CLIENT_GLOBAL_KEYS
GS_CLIENT_GLOBAL_KEYS系统表记录了密态等值特性中客户端加密主密钥的相关信息,每条记录对应一个客户端加密主密钥。主密钥具体的数据储存在系统表 GS_CLIENT_GLOBAL_KEYS_ARGS中,该表以KV键值对的形式储存了主密钥对应的加解密算法、主密钥对应的KMS套件名称以及对应加解密套件的密钥标识符。该系统表记录如下信息:
主密钥的标识信息:oid和global_key_name等。
辅助信息:如创建时间、属主和访问权限等。
主密钥是由密钥管理服务或者密钥工具生成并使用,服务端并不存储主密钥,仅协助客户端储存主密钥相关的标识信息、配置信息和描述信息。
具体各个字段的含义如下:
表4 GS_CLIENT_GLOBAL_KEYS字段
名称 | 类型 | 描述 |
oid | oid | 客户端主密钥的唯一标识符。 |
global_key_name | name | 加密主密钥(CMK)名称。 |
key_namespace | oid | 主密钥所属schema的oid。 |
key_owner | oid | 主密钥的所有者oid。 |
key_acl | aclitem[] | 主密钥指定的访问权限。 |
create_date | timestamp without time zone | 主密钥创建的时间。 |
6.4 轻量化语法解析
在全密态数据库中,客户端侧增加了一个轻量级的解析器,该解析器复用了服务端原有的解析器。用户/应用程序输入SQL语法后,客户端解析器进行词法和语法解析,会得到一棵语法树,使得驱动可以“理解”SQL语句,从而判断出需要加密的明文数据。
客户端加解密驱动通过遍历语法树,根据加密列信息,识别到语法树中需要处理的数据节点。提取出数据节点中的明文数据,使用列密钥进行加密并使用密文替换节数据点内的数据。然后将修改后的语法树进行逆解析,再通过语法树,生成SQL语句,然后发送给服务端。
图7 语法解析及加解密示意图
以上内容从软硬融合全密态、端侧加密引擎、端侧密钥管理、轻量化语法解析等四方面解读了GaussDB全密态数据库,下篇将从防篡改用户表结构、用户历史表、全局区块表结构、篡改校验算法等方面介绍GaussDB的防篡改属性。