当前位置: 首页 > article >正文

论文阅读:Jailbreak Open-Sourced Large Language Models via Enforced Decoding

1.论文:通过强制解码破解开源大型语言模型【2024ACL】

1.提出问题:
安全对齐真的可以防止那些开源的大型语言模型被误用来成不希望的内容吗?

2.做出假设:
开源模型很容易被误导,在没有大量计算和精细 Prompt 下能够产生恶意内容

3.贡献:

  1. 提出了一个攻击模型 EnDec,能够操作开源 LLM 的生成过程,使得 LLM 在特定位置产生特定的令牌。
  2. 5个开源的 LLM 上测评,无需复杂的 Prompt。【这并不是优点,训练模型会干扰其本身的能力】
  3. 作者探讨了对抗性提示的计算成本。【重要,这里可以换算为时间】
  4. 探讨了训练前和训练后的防御策略。

4.方法实现:
作者所提出的方法 EnDec 主要也是因为大模型的浅层安全对齐,恶意内容的输出首先离不开非拒绝性的回答,因此作者通过肯定前缀否定反转的方式得到肯定的语气,防止 LLM 因为否定词拒绝反应。【哪怕得到了肯定的语气,能力强的大模型依然不会输出恶意内容】
在这里插入图片描述
4.1 否定反转:
作者预先定义了一组触发强制解码的条件,即设置了一组预定义条件的令牌,当 LLM 输出满足预定义条件,则进行强制解码,利用目标令牌重新放置,以误导后续的生成过程:

在这里插入图片描述
作者的思路与 GCG、AutoDAN 等越狱方法大同小异,都是利用大模型生成的肯定响应生成恶意内容。但是 EnDec 不同之处在于生成时的多样性比以往的方法更好,而不是简单的 “Sure,here is…”,另外 EnDec 的否定反转不止是前几个令牌,而是整个输出,因此性能更好也是理所应该的。

4.2 如何反转:
采用了一个外部模型来确定生成的词是否为否定词,即利用向量模型将词嵌入然后比对预定义条件的相似度即可,阈值为 0.8。
在这里插入图片描述
5.实验设置:
数据集: 利用 AdvBench的520条数据。
指标: 使用了两个标准计算 ASR,其一是 GCG、AutoDAN那一套,即是否包含负面词语。其二,利用 LLM 判断是否有害。指标分别为 ASR-A 和 ASR-H 。
问题: 这两种方式在 ReNeLM 中已被否定,不包含负面词语的输出可能是正面输出而非恶意内容,单用 LLM 判断也较为单薄。

在这里插入图片描述
消融实验:
AP是不带肯定前缀。NR是不带否定反转,EnDec是既包含肯定前缀也有否定反转
在这里插入图片描述
另外作者还探讨了相似度大小对于结果的影响,证明了相似度大于等于 0.8 时效果最好。

在这里插入图片描述

2.个人想法

实验完整度: 在越狱和隐私窃取方面进行了评估,并跑了AdvBench完整数据集。在开源表现较好,有消融实验证明了否定反转的重要性,并证明了判断是否为否定的阈值的重要性(即,超参数)。
方法: 相比于GCG等方法,更加通用有效,但是文章并没有与之比对,怀疑在GPT等模型上的效果会很差,因为模型的输出并不会因为是否拒绝而为恶意内容,即便是肯定输出,也有很大可能输出的是肯定且正面的回答。
评估: 单用词汇表和大模型去评价效果并不好。
合理性: 这种方法对模型本身的能力有很大影响,比如正确输出:“小明是一个不好的孩子”,这样输出后内容为“小明为一个好的孩子”,这对事实具有本质性的修改。


http://www.kler.cn/a/501306.html

相关文章:

  • springboot vue uniapp 仿小红书 1:1 还原 (含源码演示)
  • 01-51单片机LED与独立按键
  • Mysql--基础篇--多表查询(JOIN,笛卡尔积)
  • 基于文件系统分布式锁原理
  • spring ApplicationContextAware的使用和执行时机
  • 专题 - STM32
  • elasticsearch中IK分词器
  • maven发包踩坑
  • 【C++】深入理解substr()函数
  • 解锁最新专业版005,内置序列免安装!
  • 腾讯云AI代码助手编程挑战赛-厨房助手之AI大厨
  • 【灵码助力安全2】——利用通义灵码辅助复现未公开漏洞的实践
  • Android车机DIY开发之软件篇(三)编译Automotive OS错误(2)
  • Github上传项目
  • 反弹SHELL不回显带外正反向连接防火墙出入站文件下载
  • 基于DFT与IIR-FIR滤波器的音频分析与噪声处理
  • 服务提供模式:App、API 和 Agent —— 重新定义服务交付方式
  • 4.3.3 最优二叉树+二叉查找树
  • 机器学习之支持向量机SVM及测试
  • WebGIS城市停水及影响范围可视化实践
  • k8s 安装ingress并配置flink服务
  • 《系统爆破:MD5易破,后台登录可爆破?》
  • KG-CoT:基于知识图谱的大语言模型问答的思维链提示
  • 青龙面板脚本开发指南:高效自动化任务的实现
  • 一学就废|Python基础碎片,文件读写
  • MySQL存储引擎、索引、索引失效