当前位置：首页 > article >正文

【大语言模型】ACL2024论文-04 PriveLM-Bench: 语言模型多层次隐私评估基准

article 2025/4/2 10:09:27

【大语言模型】ACL2024论文-04 PriveLM-Bench: 语言模型多层次隐私评估基准

摘要

本文介绍了PrivLM-Bench，一个用于量化语言模型（LMs）隐私泄露的多角度隐私评估基准。与仅报告差分隐私（DP）参数不同，PrivLM-Bench关注实际使用中的推理数据隐私。该基准首先明确定义了多方面的隐私目标，构建了一个统一的私有微调流程，并通过预定义的隐私目标对现有的隐私攻击进行了实证评估。实验结果用于公平直观地评估各种隐私保护语言模型（PPLMs）的隐私泄露。通过在GLUE数据集上的主流LMs上进行广泛实验，发现当前的隐私攻击比防御机制预期的攻击者能力要弱得多。

研究背景

随着语言模型（LMs）的快速发展，它们在众多自然语言处理（NLP）任务中取得了前所未有的性能。然而，对模型的无限制访问可能带来数据泄露等恶意隐私风险。为了解决这些问题，许多工作提出了具有差分隐私（DP）的隐私保护语言模型（PPLMs）。但由于不同的DP实现，使得对现有PPLMs进行公平比较变得困难。

问题与挑战

PPLMs面临的主要挑战包括：

不同的DP实现使得PPLMs之间的隐私性能比较变得复杂。
保护范围不明确，大多数PPLMs在推理阶段无法保证推理数据隐私。
DP的最坏情况上限是否高估了隐私泄露尚不清楚。

如何解决

PrivLM-Bench通过以下方式解决上述挑战：

明确定义多方面的隐私目标，并构建统一的私有微调流程。
执行现有的隐私攻击，以实证评估结果来量化PPLMs的隐私泄露。
通过广泛的实验，评估主流PPLMs的隐私性能。

核心创新点

PrivLM-Bench的核心创新点包括：

识别推理数据隐私作为PPLMs隐私评估的关键组成部分，并指出DP调整无法量化部署PPLMs后的实际应用中的推理数据隐私。
提供一个统一的流程，允许在PPLMs之间进行公平比较。
通过PrivLM-Bench进行广泛的实验，发现当前的隐私攻击比防御机制预期的攻击者能力要弱得多。

算法模型

PrivLM-Bench采用了多种隐私攻击，包括数据提取攻击（DEA）、成员推理攻击（MIA）和嵌入级隐私攻击（EIA），以评估PPLMs的隐私性。这些攻击结果可以直观且公平地量化现有PPLMs的隐私泄露，而不考虑它们的具体实现。

实验效果

重要数据与结论

实验在GLUE数据集上的主流LMs上进行，包括BERT、RoBERTa、GPT-2和T5等。实验结果表明：

DP调整的LMs在对抗MIA时表现良好，接近随机猜测水平，表明DP调整能有效地保护微调数据。
DP调整对推理数据隐私的保护不足，与非DP设置相比，EIA的性能差异不大。
DEA的结果表明，DP调整能有效减少暴露，特别是在增加插入次数时，DP调整的LMs表现出更低的暴露。

主要参考工作

PrivLM-Bench参考了以下主要工作：

Abadi等人（2016）的DP-SGD算法，用于实现PPLMs。
Carlini等人（2021）的数据提取攻击（DEA）和成员推理攻击（MIA）。
Song和Raghunathan（2020）的嵌入级隐私攻击（EIA）。

后续优化方向

未来的工作可以探索以下方向：

开发更强大的隐私攻击，以更好地评估PPLMs的实际隐私性能。
设计能够在保护隐私的同时提高实用性的防御策略，以改善隐私与实用性之间的权衡。
探索DP调整策略在推理阶段数据隐私保护中的应用，以全面保护PPLMs的隐私。

代码

https://github.com/HKUST-KnowComp/PrivLM-Bench

'''
https://huggingface.co/transformers/v3.3.1/pretrained_models.html

bert:
bert-base-uncased	110M
bert-large-uncased	340M

roberta:
roberta-base	125M
roberta-large	355M

gpt2:
gpt2 (124M), gpt2-medium (355M), gpt2-large (774M), gpt2-xl (1558M~1.5B)



OPTForCausalLMs:
"facebook/opt-125m" (125M) "facebook/opt-350m" (350M), "facebook/opt-1.3B" (1.3B), "facebook/opt-2.7B" (2.7B), "facebook/opt-6.7B" (6.7B), "facebook/opt-13B" (13B)

roberta:
roberta-base (125M), roberta-large(355M)

llama:

meta-llama/Llama-2-7b
meta-llama/Llama-2-7b-chat
'''