第三讲 架构详解:“隐语”可信隐私计算开源框架
目录
隐语架构
隐语架构拆解
产品层
算法层
计算层
资源层
互联互通
跨域管控
本文主要是记录参加隐语开源社区推出的第四期隐私计算实训营学习到的相关内容。
隐语架构
隐语架构拆解
产品层
产品定位:
-
通过可视化产品,降低终端用户的体验和演示成本
-
通过模块化API降低 技术集成商的研发成本
人群画像:作为隐语的直观入口,隐私保护计算从业者均应该关注
-
隐私保护计算集成商
-
隐私保护计算需求方
-
开发人员
-
研究人员
-
产品人员
-
......
特色:
-
SecretPad:轻量化安装、快速体验隐语功能、可定制集成
-
多部署形态:中心模式,后续计划发布P2P模式
-
全栈产品:MPC、TEE、SCQL
-
SecretNote:交互式建模,多节点一站式管理和交互
算法层
PSI/PIR
在前面两讲中对PSI和PIR进行过介绍,PSI是一种特殊的安全多方计算(MPC)协议,其目的是允许持有各自数据集的双方或者多方,执行两方或者多方集合的交集计算。PIR则是用户可以查询服务端数据库中的数据,但服务端不知道用户查询的是哪些数据。
定位:高性能、轻量化、易用的PSI/PIR专用协议模块;
人群画像:
-
PSI/PIR 产品人员
-
PSI/PIR 需求人员
-
PSI/PIR 研发人员
隐语架构中的PSI
1. 支持各类协议(两方\多方)
-
两方(ecdh、kkrt16、bc22、ec-oprf PSI)
-
多方(ecdh-3-party)
2. 优化
-
协议优化
-
性能优化
3. 多层入口
-
白屏用户:产品层
-
开发人员:通过SecretFlow接入、以库的形式集成
隐语架构中的PIR
1. 支持各类协议
-
Sealed PIR
-
Label PIR
-
......
2. 优化
-
协议优化
-
性能优化
3. 多层入口
-
白屏用户:产品层(计划)
-
开发人员:通过SecretFlow接入、以库的形式集成
Data Analysis
目前运营的数据分析主要是SCQL(Secure Collaborative Query Language),一种多方安全数据分析系统,可以让互不信任的参与方在保护自己数据隐私的前提下,完成多方数据分析任务。
定位:屏蔽底层安全计算协议的复杂性,以简单熟悉的 SQL 语言界面,提供多方数据密态分析能力
人群画像:
-
数据分析集成商
-
数据分析产品人员
-
数据分析需求人员
-
数据分析研发人员
核心特性:
-
半诚实安全模型
-
支持多方 (N>=2)
-
易上手,提供 MySQL 兼容的 SQL 方言用户界面
-
支持常用的 SQL 语法和算子,满足大部分场景的需求
-
可实用的性能 ü提供列级别的数据使用授权控制(CCL)
-
支持多种密态协议(SEMI2K/CHEETAH/ABY3)
-
内置支持多种数据源接入(MySQL,Postgres, CSV 等)
Federated Learning
在原始数据不出域的前提下,通过交换中间数据完成机器学习建模。 包含水平联邦和垂直联邦(主要是拆分学习,Split Learning)。
定位:具备安全攻防保障的 明密文混合机器学习框架和算法
人群画像:
-
深度学习需求方
-
深度学习产品人员
-
安全AI研究人员
特色:
1. 安全攻防
-
安全风险度量体系
-
攻防框架
-
攻防算法
2. 性能
-
稀疏化
-
量化
-
流水线
3. 算法
-
营销算法(DeepFM、BST、MMoE)
-
SOTA安全聚合
-
大模型(计划)
计算层
混合编译调度 - RayFed
在Ray基础之上所构建的专注于跨机构的分布式计算调度框架
定位:面向跨机构场景,提供单机构内计算任务独立调度和跨机构计算任务协作的能力。
人群画像:
-
隐语工程开发人员
-
隐语算法开发人员
SPU
SPU全称Secure Process Unit
定位:桥接上层算法和底层安全协议,保持原生AI框架体验的同时为 用户提供透明的、高性能的、基于安全协议的密态计算能力。
人群画像:
-
机器学习研发人员
-
密码协议研发人员
-
编译器研发人员
核心特性:
-
原生对接主流AI前端
-
持丰富的机器学习算法
-
带隐私保护语义的中间表示语言
-
基于MLIR的加密计算编译优化
-
高性能MPC协议虚拟机
-
多种数据并行,指令并行优化
-
丰富的MPC协议,适配各种场景
-
支持协议扩展,支持异构设备接入
HEU
HEU全称Homomorphic Encryption Unit
定位:低门槛,高性能的同态加密库,支持多类 型、可扩展的算法协议和硬件加速生态
人群画像:
-
同态加密用户
-
同态算法研究人员
-
同态硬件研发人员
核心特性
-
支持多种PHE算法
-
性能业界领先
-
支持多种接口(Numpy-like API\C++\Python)
-
硬件加速
TEEU
TEEU全称Trusted Enextution Environment Unit
定位:支持多种可信执行环境的、具备数据使用跨域管控能力的密态计算枢纽,可执行数据分析、机器学习、 MPC/FL加速等功能。
人群画像:
-
数据合规研究人员
-
TEE软件开发人员
-
TEE硬件制造厂商
特点:
1. 跨域管控
-
数据确权
-
使用授权
-
使用鉴权
-
结果授权
2. 可信应用
-
预处理
-
经典机器学习
-
后续计划深度学习、大模型等
3. 多硬件
-
SGX
-
HyperEnclave
-
海光CSV
-
Intel TDX
YACL
YACL全称Yet Another Common Crypto Library
定位:多种隐私计算技术路线共同需要的密码库,具备安全实现保 证、高性能等特点
人群画像:安全/密码研究人员
YACL诞生背景:
当前学术界密码库存在非标准化实现、缺少长期维护以及性能问题。工业界密码库则缺少良好的密码工具抽象,功能上保守的新协议引入等问题。
特色:
1. 性能
-
核心原语:高性能保障
-
详细的benchmarking
2. 安全性
-
安全逻辑“链”
3. 易用性
-
对密码协议开发者:良好的接口抽象
-
注释 = 文档
资源层
kuscia
kuscia全称KUbernetes based Secure Collaborative InfrA
定位:屏蔽不同机构间基础设施的差异,为跨机构协作提供丰富且可靠的资源管理和任务调度能力。
人群画像:
-
运维开发人员
-
隐私保护计算集成商
互联互通
定位:隐语和其它厂商的平台可以互联互通,共同完成一个隐私计算 任务。
人群画像:
-
互联互通需求方
-
算法研发人员
-
平台研发人员
-
隐私保护计算集成商
黑盒模式
-
又称管理调度互联
-
管理面、控制面实现互联互通
-
两边加载相同的算法容器
白盒模式
-
又称基于开放算法协议的互联
-
算法引擎层面可以直接互联
跨域管控
定位:数据离开持有者的运维域后,数据方仍然能够有效地控制数据的流转过程,避免其被窃取或者非预期使用。
人群画像:
-
隐私保护计算需求方
-
监管方
-
运维人员
参考
隐语 · 实训平台