当前位置: 首页 > article >正文

Certifying LLM Safety against Adversarial Prompting

erase-and-check

erase:逐一删除prompt中的词元(token)

check:用安全过滤器检查生成的子序列。

如果任何子序列或输入提示本身被过滤器检测为有害,则将该提示标记为有害。

如图,对有对抗性后缀的有害prompt进行 擦除并检查 :

检查两种实现方式:

  1. 使用通用的大语言模型(如Llama 2)来分类输入提示是否安全或有害。

    不需要额外训练,依赖输出文本进行简单的检查,输出中是否包含“Not harmful”等安全标记,若有,则认为prompt是安全。

  2. 对预训练模型(如DistilBERT,将其修改为分类器)进行微调,使用安全和有害提示的示例来训练。

erase-and-check 针对这3种攻击方式:

(穷举搜索)

GreedyEC使用贪心算法,通过每次删除最能增加有害类别得分的tokens来优化输出的安全性,属于局部最优策略。

GradEC通过计算梯度来优化删除哪些tokens,它的策略更加精细和全局,基于输入变化对安全性的影响做出决策

所用数据集

  • 对抗后缀:在prompt的末尾附加一个对抗性序列。

    从输入prompt的末尾逐个擦除d个令牌(最大擦除长度d),并使用过滤器is-harmful检查d个子序列,有一个就算harmful。

  • 对抗插入:在prompt的任意位置插入对抗性序列。

    从prompt的任一位置i开始擦除,最多擦除d个令牌

  • 对抗注入:在prompt中的任意位置插入对抗性词元,这些词元不一定是连续的块。

    系统会在prompt中随机“擦除”掉不超过 d 个的词,形成d个子句。只要有一个子句完全匹配上所有对抗词(对抗词数量不超过 d 个),系统就可以标记这条提示为有害。

  • 更高效的三种经验防御

    RandEC,擦除随机和检查随机的随机子抽样。

    GreedyEC,它贪婪地擦除使蒸馏器安全分类器有害类的softmax分数最大化的令牌。

    GradEC,使用安全过滤器相对于输入提示符的梯度来优化要擦除的令牌。

  • GreedyEC:每次只能移除当前最危险的一个

  • GradEC:每次可以基于敏感度或危险程度,同时移除最危险的几个。

https://github.com/aounon/certified-llm-safety/tree/585385ae21fc4cc4f48d2c54180a72f92fdd292f/data

数据集包括520个harmful prompts 和 520个safe prompts


http://www.kler.cn/a/449961.html

相关文章:

  • Selenium 和 Playwright两大框架的不同之处
  • window安装TradingView
  • 餐饮业的数字化转型:JSP订餐管理系统的设计与开发
  • Windows、CentOS环境下搭建自己的版本管理资料库:GitBlit
  • 一体式IO模块:打印机加工产线国产化降本增效的新利器
  • MySQL 数据库优化详解【Java数据库调优】
  • 网络管理 详细讲解
  • 网络安全(一)主动攻击之DNS基础和ettercap实现DNS流量劫持
  • BOE(京东方)“向新2025”年终媒体智享会落地成都 持续创新引领产业步入高价值增长新纪元
  • MongoDB教程001:基本常用命令(数据库操作和集合操作)
  • 跨模态知识迁移:基于预训练语言模型的时序数据建模
  • WebRTC服务质量(08)- 重传机制(05) RTX机制
  • js按首字母分组和排序
  • 【华为OD-E卷-箱子之字形摆放 100分(python、java、c++、js、c)】
  • c# 后台任务自动执行
  • springboot476基于vue篮球联盟管理系统(论文+源码)_kaic
  • 【NLP高频面题 - Transformer篇】Transformer的位置编码是如何计算的?
  • 验证码机制
  • C/C++基础知识复习(43)
  • 库卡机器人维修A5轴力矩过大报警故障
  • vue预览和下载 pdf、ppt、word、excel文档,文件类型为链接或者base64格式或者文件流,
  • skyler实战渗透笔记(十)—IMF
  • python学opencv|读取图像(十七)认识alpha通道
  • 计算机基础复习12.23
  • TSN(时间敏感网络)介绍
  • 【微服务】SpringBoot 整合Redis实现延时任务处理使用详解