当前位置: 首页 > article >正文

幻觉消除论文阅读:通过诱导幻觉缓解大型语言模型的幻觉

Alleviating Hallucinations of Large Language Models through Induced Hallucinations

https://github.com/hillzhang1999/ICD

背景

先前研究认为的幻觉来源:

  • LLMs 的预训练目标:基于最大似然的下一个词预测。这种目标可能会导致 LLMs 对训练数据中出现的非事实信息分配非零概率,或者过度依赖从训练语料库中学习到的表面模式,而不是记忆现实世界的事实
  • 知识不足:减轻这种情况的一种直观想法是通过事后监督微调 (SFT) 向 LLM 注入更多知识(然而,SFT 也可能会无意中鼓励 LLM 产生幻觉,迫使它们回答超出其知识范围的问题,同时通过SFT灌输知识需要大量事实数据,在计算上具有挑战性)

先前的缓解幻觉方法:

  • 高质量训练数据
  • 从外部反馈中进行强化学习
  • 检索增强生成
  • 使用模型不确定性

OpenAI 的 SuperAlignment 团队揭示了弱到强的泛化现象(Burns 等人,2023),表明弱模型有可能激发出强模型的能力

受其启发,我们通过微调或零样本提示,可以很容易地从大型语言模型 (LLM) 中诱导出幻觉,而对幻觉进行惩罚可以有效地引导 LLM 生成更多的事实性内容

对比解码(CD):

最初是为了提高文本生成的流畅度和连贯性而开发的

普通 CD 的基本思想是通过对比两个参数规模不同的语言模型来确定下一个词的概率,后续研究者发现CD可以增强LLM的推理能力/提高事实性

DoLa基于早期层存储较少事实知识的假设,动态地选择 LLM 的早期层与最终层进行对比;而我们提出的ICD直接从基础LLM中诱导幻觉以进行对比。

不良行为诱导:

LLM被少量对抗性数据微调后很容易被操纵/越狱,

贡献

提出了一种简单的诱导对比解码 (Induce-thenContrast,ICD) 策略来缓解幻觉:

首先通过从原始 LLM 中诱发幻觉来构建一个事实性较弱的 LLM:

直接使用一定数量的非事实样本微调 LLM 来诱导 LLM 产生幻觉(用chatgpt生成非事实样本)

微调过程可以表示为:
在这里插入图片描述

然后,我们在解码过程中对这些诱导的幻觉进行惩罚,以增强生成内的事实性。

具体来说,我们通过对比解码放大原始模型的预测,并淡化诱导的虚假预测,从而确定最终的下一个词元预测。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

Baselines

将 ICD 与以下解码方法进行比较:

  1. 贪婪解码,它贪婪地选择具有最高概率的下一个标记;

  2. 推理时间干预 (ITI) (Li 等人,2023b),它试图通过沿学习到的真实性相关方向1移动模型激活来提高事实性;

  3. DoLa (Chuang 等人,2023),它试图通过对比来自模型不同层的输出分布来减少幻觉;

  4. 纯粹对比解码 (CD) (Li 等人,2023c),它对比来自不同参数规模模型的输出分布。

实现细节

主要使用 Llama-2 系列模型(Touvron 等人,2023)进行。

在 TruthfulQA 上使用我们的方法时,我们通过使用 HaluEval 数据集(Li 等人,2023a)中 10k 个幻觉 QA 对微调基础模型来诱导幻觉

在 FACTSCORE 上,我们使用 ChatGPT 生成的 3.5k 个幻觉传记对基础模型进行微调

可以观察到,带有微调驱动的幻觉诱导的 ICD 显著提高了 Llama2-7B-Chat 在 TruthfulQA 上的真实性(MC1/2/3 分数分别提高了 +8.70/14.18/13.13)
在这里插入图片描述

局限性

  • 额外的计算成本:两倍前向传播
  • 评估设置可信度不足
  • 未来方向:与其他幻觉缓解方法结合(例如RAG)

http://www.kler.cn/news/292747.html

相关文章:

  • Redis 篇-深入了解查询缓存与缓存所带来的问题(读写不一致、缓存穿透、缓存雪崩、缓存击穿)
  • 开放式运动耳机好不好用?超靠谱好评榜单实物测评
  • 声明,初始化,赋值三者之间的区别
  • 企业财税自动化解决方案如何提升财务效率与准确性
  • 828华为云征文|部署内容管理系统 Joomla
  • 使用MySQL Workbench进行数据库设计与管理
  • docker-记录一次docker-compose部署容器挂载权限问题
  • 中秋国庆请客喝酒,面子与钱包双赢的红酒选择
  • 双厨狂喜!当游戏碰撞地理空间分析
  • PHP一站式班级解决方案班级管家系统小程序源码
  • [教程] 2024.09.06 全网最新最全!不支持合约参数类型编码,WeBASE出现该问题解决方案
  • elementui el-radio 垂直排列
  • 基于LangChain+LLM的相关技术研究及初步实践
  • 数据库MySQL基础
  • C语言之联合体和枚举
  • 【2025】公司仓库管理系统的设计与实现(公司仓库信息管理系统,仓库信息系统,管理系统,信息管理系统,货物仓管系统)
  • 【B题成品论文已出】24数学建模国赛B题成品论文(附参考代码)免费分享
  • 探索 Redis Set:命令、编码与应用实践
  • 个股场外期权怎么交易?场外期权交易流程是怎样的?
  • Unity 性能优化工具收集
  • Debian 12 中为 root 用户修改最大打开文件数进程数的限制
  • 排序算法之二叉树排序详细解读(附带Java代码解读)
  • 打造主播美颜工具:视频美颜SDK与直播美颜API的集成与优化详解
  • VsCode 联想路径配置
  • 2024数学建模国赛ABCDE题选题分析及初步思路
  • 【技巧】Excel检查单元格的值是否在另一列中
  • 宏碁扩展Swift系列,推出四款全新AI笔记本电脑
  • 【媒体邀约】论企业宣传与媒体合作
  • Docker进入容器命令
  • 专业远程控制SDK嵌入,贝锐向日葵助力保利物业实现智能设备运维