当前位置: 首页 > article >正文

NLP论文速读(NeurIPS 2024)|大语言模型在评估的时候更倾向于自己生成的内容

论文速读|LLM Evaluators Recognize and Favor Their Own Generations

论文信息:

图片

简介:

      这篇论文探讨了大型语言模型(LLMs)在自我评估时出现的自我偏好问题。具体来说,它研究了LLMs在评估文本时倾向于给自己生成的文本打高分,而人类评估者则认为这些文本与其他LLM或人类生成的文本质量相当。论文的核心问题是探究LLMs是否因为能够识别出自己的输出而产生这种自我偏好,还是这种偏好仅仅是巧合。研究动机在于自我评估在LLM生命周期中变得越来越重要,尤其是在奖励建模、基于模型的基准测试、自我完善和宪法AI等方法中。LLMs作为评估者时,其评估的中立性受到质疑,可能导致系统性偏差。这种自我偏好偏差不仅影响了模型间的公平比较,还可能对AI的安全性和可靠性构成威胁。因此,理解并减轻自我偏好对于提高LLMs的评估准确性和安全性至关重要。

论文方法:

      研究者们采取了以下方法来探究自我识别能力和自我偏好之间的关联:

     1)数据集和模型:研究集中在文本摘要任务上,使用了XSUM和CNN/DailyMail数据集中的1000篇新闻文章及其人类编写的摘要。实验使用了GPT-3.5、GPT-4和Llama 2这三种LLMs。

      2)自我识别与自我偏好的定义和测量:自我偏好被定义为LLM倾向于偏好自己生成的文本,而自我识别是LLM区分自己生成的文本与其他LLM或人类生成文本的能力。研究者通过成对测量和个体测量两种方式来评估LLMs的这些能力。

      3)实验设计:研究者通过提示(prompting)和微调(fine-tuning)来改变LLM的自我识别能力,并测量其自我偏好的变化。他们还通过控制实验来排除其他可能的混杂因素。

      4)微调:研究者对LLMs进行了监督微调,以改变它们的自我识别能力。他们使用成对的例子进行训练,让模型预测哪个摘要是由自己生成的。微调在不同数据集上进行,并在领域内和领域外进行评估。

      5)相关性分析:研究者分析了自我识别能力与自我偏好之间的相关性,并探讨了这种相关性是否能够通过控制其他潜在的混杂变量来解释。

论文实验:

图片

      Figure 2 展示了大型语言模型(LLMs)在成对设置(pairwise setting)中的自我识别能力。实验结果通过两种不同的测量方式呈现:成对测量(pairwise measurement)个体测量(individual measurement),并且这些结果是基于两个数据集(XSUM和CNN/DailyMail)的汇总。

      在成对测量中,LLMs需要比较两个文本片段,其中一个是自己生成的,另一个来自另一个LLM或人类,并判断哪一个是自己生成的。

      成对测量实验结果显示:

      1)GPT-4在自我识别方面明显优于其他两个模型。

      2)所有三个LLM评估器都能更容易地区分自己和人类写的摘要。特别是Llama 2,它能有效地区分自己和人类生成的摘要。

      3)较弱的LLMs在区分自己和较强的LLMs时存在困难:Llama 2无法区分自己和GPT-3.5及GPT-4生成的摘要,而GPT-3在区分自己和GPT-4时也存在挑战。

      4)GPT-4评估器并没有比GPT-3.5评估器更容易区分Llama 2的摘要和自己的摘要,这与我们直觉中自我识别分数应该随着评估器和被评估对象之间的差异增加而增加的预期相反。

      在个体测量中,LLMs被呈现单个文本片段,并被要求判断该文本是否为自己生成的。与成对测量相比,个体测量中LLMs失去了比较两个文本的优势,导致自我识别能力普遍下降。

      个体测量实验结果显示:

      1)GPT-4是唯一一个在个体设置中能够以非平凡准确度区分作者的模型。

      2)未标准化的置信分数(raw confidence scores)显示,GPT-4强烈倾向于不预测任何文本是自己生成的,无论实际作者是谁;而GPT-3.5和Llama 2则表现出相反的倾向。

      该篇论文主要以实验为主来进行论述,这里仅仅放了小部分实验和对应分析。感兴趣的同学可以再深入阅读一下原论文。

论文链接:

https://arxiv.org/abs/2404.13076

原文来自:

NLP论文速读(NeurIPS 2024)|大语言模型在评估的时候更倾向于自己生成的内容


http://www.kler.cn/a/390055.html

相关文章:

  • 使用 start-local 脚本在本地运行 Elasticsearch
  • 软件测试面试2024最新热点问题
  • 《DiffusionDet: Diffusion Model for Object Detection》ICCV2023
  • P8680 [蓝桥杯 2019 省 B] 特别数的和
  • 动态规划 —— 子数组系列-最大子数组和
  • aws(学习笔记第十二课) 使用AWS的RDS-MySQL
  • FPGA学习笔记#7 Vitis HLS 数组优化和函数优化
  • 【前端】Typescript从入门到进阶
  • FMC 扩展子卡6 路 422,8 组 LVDS,8 路 GPIO
  • 代码随想录第二十四天
  • 在本机上跑LLM的体会
  • 【教程】Ubuntu设置alacritty为默认终端
  • LabVIEW导入并显示CAD DXF文件图形 程序见附件
  • 深入解析TOML、XML、YAML和JSON:优劣对比与场景应用
  • Docker了解
  • HTMLCSS 打造的酷炫菜单选项卡
  • SD-WAN专线接入与互联网接入对比:企业网络选择指南
  • Kettle——CSV文件转换成excel文件输出
  • 23.网工入门篇--------介绍一下园区网典型组网架构及案例实践
  • 行业类别-智能制造-子类别工业4.0-细分类别物联网应用-应用场景智能工厂建设
  • AI 刷题实践选题:云端编辑器的独特价值与学习实践| 豆包MarsCode AI刷题
  • uni-app项目启动-结构搭建④
  • Linux系统部署docker和docker-compose应用
  • Redis 入门
  • TypeError: str expected.not int 解决方案
  • 通过 HTTP 获取远程摄像头视频流并使用 YOLOv5 进行目标检测