【隐私计算篇】全同态加密应用场景案例(隐私云计算中的大模型推理、生物识别等)
1.题外话
最近因为奖项答辩,一直在忙材料准备,过程非常耗费时间和精力,很难有时间来分享。不过这段时间虽然很忙碌,但这期间有很多新的收获,特别是通过与领域内专家的深入交流和评审过程,对密码学和隐私计算领域有了更深层次的理解。此外,也体会到工作中严谨和科学的工作方法的重要性。
2. 全同态加密应用案例
2.1 关于全流程加密、密算云的讨论
近期在全同态加密算法的一些实践,特别是利用GPU来加速密文的处理(可以看下前段时间分享的《替换半同态使用全同态加速计算联邦机器学习算法的实证分析及性能对比》)。在此过程中,全同态加密算法进行了多方面的改进,性能效率显著优化。让我们看到全同态在联邦机器学习、联邦深度学习上的性能潜力。
近期行业内逐步出现密算云的实践,我称之为“隐私云计算”。密算是指整个数据以密算形式流通,保障它在存储计算、运维研发全链路是安全可控的【1】。全链路密算的概念,和2022年富数科技以及腾讯、2023年蓝象智联提出的全匿踪联邦学习、全链路加密处理【2】有相似之处,都强调全流程的安全可控以及密态形式数据流转,而不再是原来追求隐私计算的片面安全性,关于隐私计算的片面安全性,可以参考阅读《隐私计算使用不当也会泄露原始数据》。
2.2 关于全同态加密算法及应用案例
2.2.1 全同态加密算法略谈
关于全链路密算的隐私计算模式,全同态加密算法是一种可行解。 全同态加密(Fully Homomorphic Encryption, FHE)允许对加密数据进行计算,而无需解密。这种特性使得在处理敏感数据时,可以在保护数据隐私的同时,仍然能够执行必要的计算操作。
全同态加密的工作原理是,通过对数据进行加密后,任何对这些加密数据的计算结果都可以在不泄露原始数据的情况下,得到与直接在明文上计算相同的结果。这使得它在云计算和分布式计算环境中,面向需要保护用户隐私的场景中,有很好的应用潜力。
在全链路密算中,全同态加密能够有效解决数据传输和存储中的隐私问题。无论是在数据收集、传输还是存储阶段,数据始终保持加密状态,避免了数据在传输过程中的潜在泄露风险。此外,通过全同态加密,参与方可以在保持各自数据隐私的前提下,协同完成复杂的计算任务,实现数据共享与合作。
全同态加密算法,目前主流和常用的主要是BFV以及CKKS。其中BFV(Brakerski/Fan-Vercauteren)方案主要面向整数向量进行密文处理。基于 CKKS(Cheon-Kim-Kim-Song)方案则是面向实数向量进行密文处理。密文处理又涉及密文 - 密文向量以及密文 - 明文向量进行逐元素的加法、减法和乘法操作, 点积和矩阵乘法等【4】。
2.2.2 全同态加密算法应用案例
【3】中介绍了几种密算云的应用案例,感觉不错,这里做下分享。
2.2.2.1 案例1--大模型密算
大模型(云)能够辅助完成各种任务,从训练成本和实用功能的角度来看,具有显著的数据价值,通常作为通用服务提供给用户。然而,大模型应用中一个备受关注的问题是,用户提供给模型的输入可能包含敏感信息。当用户以明文形式输入这些信息时,一方面,模型服务方(云)可能直接获取这些敏感数据;另一方面,模型可能学习到输入内容,从而导致进一步的信息泄露。关于这一点,我会在后续的大模型评估中谈到,其实模型评估的时候也会遇到类似问题,你的prompt很快就会被作为微调或者训练语料被记忆到大模型中,导致静态评估的失效。
为了解决这一问题,可以采用全同态加密技术。用户可以将自己的输入信息进行全同态加密,然后在密文状态下执行大模型的推理计算,从而生成密文形式的回答。最终,用户可以解密该回答,获得明文内容。在整个过程中,用户的输入和输出信息都得到了有效保护,未发生泄漏。同时,模型所有方也确保了计算过程在自己的服务器上进行,避免了模型信息的泄露。
2.2.2.2 案例2--生物识别
关于生物识别,之前我们介绍了利用MPC实现人脸识别的案例,对VGG16深度学习模型进行密态推理,可以参考《利用多方安全计算MPC实现VGG16人脸识别隐私推理》。而本案例提出基于全同态加密的方式进行处理。
公有云平台提供人脸识别及人脸数据库管理服务,应用方(如 APP 公司)可以将用户的人脸数据库委托给公有云进行管理。云平台不仅提供数据库的查询和修改服务,还提供人脸图像的比对、定位和分析等 AI 模型服务。由于人脸数据属于个人生物信息,相关法规要求使用人脸识别技术的产品必须确保人脸数据的安全。针对这一场景,可以采用全同态加密技术,以支持在密文状态下对人脸数据库进行处理和推理。通过将人脸数据库以密文形式托管,不仅可以确保应用方用户的个人数据隐私不被公有云泄露,还能有效防止潜在黑客获取存储在公有云数据库中的敏感信息。在MPC方案中,是通过对数据进行碎片化分布式保存,也就是黑客只要没有拿到全部的碎片或者说没有达到原始数据的恢复碎片数量阈值,就不可能窃取到明文人脸数据。基于全同态加密和安全多方计算实现数据安全保护的方式还是有比较大的差异的。
2.2.2.3 案例3--医疗数据
基因数据是现代医学研究和疾病诊断的重要组成部分,但同时也涉及到个人隐私的关键数据。在基因诊断应用中,用户需提供自己的基因数据,但必须防止数据泄漏。同时,医疗机构(云)提供的生物信息算法也是其重要资产,机构同样希望保护这些信息不被泄露。通过使用全同态加密算法,用户可以将自己的基因片段加密后发送给医疗机构(云)。医疗机构(云)在密文状态下执行生物信息算法,并将所得结果返回给用户。用户随后解密结果,便可以获得诊断信息。在这一过程中,双方的隐私得到了有效保护,同时用户所获得的诊断结果与在明文数据下的结果一致。
同样这个模式也适用其他敏感的医疗场景隐私数据的处理,比如用户关于某种自身罕见疾病的信息查询。
3. 参考材料
【1】大模型密算平台(隐语)
【2】全匿踪联邦学习(富数、腾讯、蓝象、洞见等)
【3】全同态密码云计算平台(格物)
【4】全同态加密张量运算库解读