当前位置：首页 > article >正文

NLP论文速读（NeurIPS 2024）|大语言模型在评估的时候更倾向于自己生成的内容

article 2025/4/2 14:59:01

论文速读|LLM Evaluators Recognize and Favor Their Own Generations

论文信息：

简介:

这篇论文探讨了大型语言模型（LLMs）在自我评估时出现的自我偏好问题。具体来说，它研究了LLMs在评估文本时倾向于给自己生成的文本打高分，而人类评估者则认为这些文本与其他LLM或人类生成的文本质量相当。论文的核心问题是探究LLMs是否因为能够识别出自己的输出而产生这种自我偏好，还是这种偏好仅仅是巧合。研究动机在于自我评估在LLM生命周期中变得越来越重要，尤其是在奖励建模、基于模型的基准测试、自我完善和宪法AI等方法中。LLMs作为评估者时，其评估的中立性受到质疑，可能导致系统性偏差。这种自我偏好偏差不仅影响了模型间的公平比较，还可能对AI的安全性和可靠性构成威胁。因此，理解并减轻自我偏好对于提高LLMs的评估准确性和安全性至关重要。

论文方法:

研究者们采取了以下方法来探究自我识别能力和自我偏好之间的关联：

1）数据集和模型：研究集中在文本摘要任务上，使用了XSUM和CNN/DailyMail数据集中的1000篇新闻文章及其人类编写的摘要。实验使用了GPT-3.5、GPT-4和Llama 2这三种LLMs。

2）自我识别与自我偏好的定义和测量：自我偏好被定义为LLM倾向于偏好自己生成的文本，而自我识别是LLM区分自己生成的文本与其他LLM或人类生成文本的能力。研究者通过成对测量和个体测量两种方式来评估LLMs的这些能力。

3）实验设计：研究者通过提示（prompting）和微调（fine-tuning）来改变LLM的自我识别能力，并测量其自我偏好的变化。他们还通过控制实验来排除其他可能的混杂因素。

4）微调：研究者对LLMs进行了监督微调，以改变它们的自我识别能力。他们使用成对的例子进行训练，让模型预测哪个摘要是由自己生成的。微调在不同数据集上进行，并在领域内和领域外进行评估。

5）相关性分析：研究者分析了自我识别能力与自我偏好之间的相关性，并探讨了这种相关性是否能够通过控制其他潜在的混杂变量来解释。

论文实验:

Figure 2 展示了大型语言模型（LLMs）在成对设置（pairwise setting）中的自我识别能力。实验结果通过两种不同的测量方式呈现：成对测量（pairwise measurement）和个体测量（individual measurement），并且这些结果是基于两个数据集（XSUM和CNN/DailyMail）的汇总。

在成对测量中，LLMs需要比较两个文本片段，其中一个是自己生成的，另一个来自另一个LLM或人类，并判断哪一个是自己生成的。

成对测量实验结果显示：

1）GPT-4在自我识别方面明显优于其他两个模型。

2）所有三个LLM评估器都能更容易地区分自己和人类写的摘要。特别是Llama 2，它能有效地区分自己和人类生成的摘要。

3）较弱的LLMs在区分自己和较强的LLMs时存在困难：Llama 2无法区分自己和GPT-3.5及GPT-4生成的摘要，而GPT-3在区分自己和GPT-4时也存在挑战。

4）GPT-4评估器并没有比GPT-3.5评估器更容易区分Llama 2的摘要和自己的摘要，这与我们直觉中自我识别分数应该随着评估器和被评估对象之间的差异增加而增加的预期相反。

在个体测量中，LLMs被呈现单个文本片段，并被要求判断该文本是否为自己生成的。与成对测量相比，个体测量中LLMs失去了比较两个文本的优势，导致自我识别能力普遍下降。

个体测量实验结果显示：

1）GPT-4是唯一一个在个体设置中能够以非平凡准确度区分作者的模型。

2）未标准化的置信分数（raw confidence scores）显示，GPT-4强烈倾向于不预测任何文本是自己生成的，无论实际作者是谁；而GPT-3.5和Llama 2则表现出相反的倾向。

该篇论文主要以实验为主来进行论述，这里仅仅放了小部分实验和对应分析。感兴趣的同学可以再深入阅读一下原论文。