当前位置：首页 > article >正文

【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱：通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧

article 2025/3/1 16:16:57

【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱：通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧

【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱：通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧
- 目录
- - 文章
  - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - - GradSafe-Zero
    - GradSafe-Adapt
  - 实验效果
  - - 重要数据与结论
  - 推荐阅读指数：★★★★☆
- 后记

文章

Johnny 如何说服大型语言模型越狱：通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧
在这里插入图片描述 https://arxiv.org/pdf/2401.06373

摘要

大型语言模型（LLMs）在常识任务上表现出色，但它们也面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要依赖在线内容审核 API 或微调过的 LLMs，这些策略通常需要大量的数据收集和资源密集型的训练过程。本研究提出了 GradSafe，一种通过检查 LLMs 中安全关键参数的梯度来有效检测不安全提示的方法。我们的方法基于一个关键观察：不安全提示与遵从响应（如“Sure”）配对时，LLM 的损失梯度在某些安全关键参数上表现出相似的模式，而安全提示则导致明显不同的梯度模式。基于这一观察，GradSafe 分析提示（与遵从响应配对）的梯度，以准确检测不安全提示。我们在 Llama-2 和 GPT-3.5/GPT-4 上评估了 GradSafe，结果表明 GradSafe 在检测不安全提示方面优于经过大量数据集微调的 Llama Guard。这一优越性能在零样本和适应性场景下是一致的，我们的评估基于 ToxicChat 和 XSTest 数据集。

研究背景

随着大型语言模型（LLMs）在各个领域的应用越来越广泛，非专家用户在日常交互中也可能对 LLMs 的安全性构成威胁。尽管 LLMs 通常经过与人类价值观对齐的训练，但它们仍然容易受到各种攻击，以及安全风险的高估。此外，对于 LLM 定制服务，如果训练集中的不安全提示未被检测和过滤，模型可以被微调以表现出不安全的行为并遵从不安全的提示。因此，开发精确检测不安全提示的方法变得尤为重要。
在这里插入图片描述

问题与挑战

现有的不安全提示检测方法主要依赖在线内容审核 API 或微调过的 LLMs，这些方法需要大量的数据收集和资源密集型的训练过程。此外，这些方法可能无法准确识别不安全提示，导致 LLMs 被滥用或恶意微调。

如何解决

GradSafe 通过分析 LLMs 中安全关键参数的梯度来检测不安全提示，无需额外的数据收集和 LLMs 的微调。GradSafe 的核心观察是，不安全提示与遵从响应配对时，LLM 的损失梯度在某些安全关键参数上表现出相似的模式，而安全提示则导致明显不同的梯度模式。基于这一观察，GradSafe 分析提示（与遵从响应配对）的梯度，以准确检测不安全提示。

创新点

提出了一种新的方法，通过分析 LLMs 中安全关键参数的梯度来检测不安全提示，无需额外的数据收集和 LLMs 的微调。
GradSafe 基于关键观察：不安全提示与遵从响应配对时，LLM 的损失梯度在某些安全关键参数上表现出相似的模式。
GradSafe 提供了两种变体：GradSafe-Zero（零样本，基于阈值的分类方法）和 GradSafe-Adapt（适应性变体，使用逻辑回归模型进行领域特定调整）。

算法模型

在这里插入图片描述

GradSafe-Zero

GradSafe-Zero 依赖于跨所有安全关键参数的平均余弦相似度来确定提示是否不安全。对于待检测的提示，GradSafe-Zero 将提示与遵从响应“Sure”配对，计算 LLM 的损失梯度，并与不安全梯度参考进行比较。如果得分超过预定义的阈值，则将提示识别为不安全。

GradSafe-Adapt

GradSafe-Adapt 通过训练一个简单的逻辑回归模型，并使用余弦相似度作为特征，利用训练集进行领域适应。GradSafe-Adapt 首先获得所有提示的余弦相似度，然后使用这些相似度作为输入特征来训练逻辑回归分类器，该分类器作为检测器。

实验效果

重要数据与结论

在 ToxicChat 和 XSTest 数据集上，GradSafe-Zero 在无需进一步训练的情况下，超过了专门微调的 Llama Guard 以及领先的在线内容审核 APIs 的检测能力。
GradSafe-Adapt 在 ToxicChat 数据集上展示了出色的适应性，超过了 Llama Guard 和原始 Llama-2 模型，强调了其在领域特定适应性方面的优越性能。