当前位置: 首页 > article >正文

顶会评测集解读-AlignBench: 大语言模型中文对齐基准

评测集社区 CompssHub 作为司南 OpenCompass大模型评测体系的重要组成部分,致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等12个方向的评测集,欢迎大家探索。

为了将评测集社区 CompssHub 收录的优秀评测集更好的展现给大家,司南 OpenCompass 特别开展了顶会评测集解读系列,今天我们将解读 ACL 2024 Accepted Papers — AlignBench: Benchmarking Chinese Alignment of Large Language Models.

论文地址:

https://aclanthology.org/2024.acl-long.624.pdf

AlignBench 开源仓库:

https://github.com/THUDM/AlignBench

评测集社区 CompssHub: 

https://hub.opencompass.org.cn/dataset-detail/AlignBench

摘要

在人工智能和自然语言处理领域的飞速发展中,大语言模型(LLMs)展现出令人惊叹的能力。然而,对于新兴的中文 LLMs,其对齐效果的评估仍然是一个亟待探索的领域。为了填补这一空白, AlignBench 应运而生,这是一个全面的、多维度的基准测试,专门用于评估 LLMs 在中文环境下的对齐情况。

AlignBench 的独特之处在于其精心设计的人机协作数据策划流程。它包含了八个主要类别,涵盖683个基于真实场景的查询,每个查询都配有经过人工验证的参考答案。此外,对于知识密集型的查询,AlignBench 还提供了来自可靠网络来源的证据,包括 URL 和引用,大大提高了评估的可靠性和真实性。

在评估方法上,AlignBench 采用了创新的规则校准多维 LLM-as-Judge方法,并结合了思维链(Chain-of-Thought)技术。这种方法不仅能生成解释性评价,还能给出最终评分,为研究人员提供了深入洞察LLMs表现的窗口。

本期顶会评测集解读让我们一起深入探讨 AlignBench 评测基准,揭示中文LLMs在对齐方面的潜力与挑战,推动中文自然语言处理技术迈向新高度!

介绍

在自然语言处理(NLP)领域,对齐(Alignment)已成为大型语言模型(LLMs)发展的关键挑战。随着ChatGPT等产品的兴起,LLMs在各种任务中展现出惊人的能力。然而,如何准确评估这些模型在中文环境下的对齐程度,一直是一个亟待解决的问题

图片
图1:AlignBench 的整体框架

针对上述问题,该团队提出了 AlignBench,这是一个全面的维评测基准,用于评估中文 LLMs 的对齐能力。参考一个线上 LLM 服务,该团队建立了一个半自动化的数据策划流程并结合人类参与,以创建高质量的查询来构建 AlignBench。AlignBench 总结了一个包含 8 个主要类别的查询分类法,以全面覆盖和对齐真实场景的使用情况(参见图 1)。为了使评估模型生成客观和公正的评估,每个样本都附有一个经过人类修正的 LLM 生成的参考。为确保知识密集型查询(占 66.5%)的参考正确性,该团队要求注释员提供在网上搜索的包括 URL 和引用,最终合成参考文献。

为了增强评估的自动化,AlignBench 利用 GPT-4 作为其主要模型评估器,这有助于识别数据样本并通过逐点分结合 CoT 进行评估。不同于 MT-Bench 的是,AlignBench 进一步强调了评分中的规则校准和任务特定多维判断。实验表明,这些策略有助于 AlignBench 与人类判断更加一致并拥有更好的可解释性。基于 AlignBench,该团队评估了 17 个常见的中文 API LLMs 和开源 LLMs,并提供了这些模型在中文对齐能力的细致比较。

数据集

数据集构成

AlignBench 基于真实用户指令,将大语言模型(LLMs)的能力框架总结为 8 个主要类别,共包含 683 个样本。这种分类旨在进行系统性的评估,涵盖了 LLMs 在各种场景下的应用能力。如表 1 所示。

图片
表1:AlignBench 示例分布

数据集构建

AlignBench 中的每个样本包含一个任务导向的查询、高质量的参考答案,以及它所属于的类别。详细的构建流程如下所述。

查询筛选:为了确保查询的多样性和真实性,该团队主要参考两个来源:在线聊天服务中的场景和研究人员撰写的挑战性问题。考虑到数据的噪声特性,该团队需要经过高标准的数据筛选流程:1) 任务导向: 查询应体现人类意图,并引导 LLMs 完成指定任务。2) 清晰度与流畅性: 查询应清晰易懂,要求应流畅表达。3) 复杂性与难度: 查询应对大多数 LLMs 来说具有挑战性,需要它们充分利用能力来全面解决。4) 去敏感化: 确保查询是安全的且不具敏感性。

参考答案的获取与改进:对于 AlignBench 的逐点评分,已有研究发现使用关键参考答案进行评分有助于提高 LLM-as-Judge 的可靠性(Zheng et al., 2023; Zhang et al., 2020)。因此,该团队决定提供由人类筛选的参考答案,以帮助评审者判断答案的正确性。然而,由于 AlignBench 被设计为具有挑战性且覆盖广泛,初步试验中人类注释者从零开始提供答案非常困难。因此,该团队首先利用 GPT-4 生成答案,然后要求人类注释者仔细审查、修订和完善这些答案,作为 AlignBench 的参考答案。为了确保参考答案的质量,特别是对于来自专业知识、数学和逻辑推理等类别的知识密集型查询,该团队明确要求注释者在验证过程中进行网络搜索。在搜索过程中,要求记录网页的 URL 和引用内容,以便撰写参考文献,如表 2 所示。

图片
表 2:AlignBench 知识增强查询注释的示例

过滤与分类:为了区分强 LLMs 之间的评分,有必要过滤出更具挑战性的样本进行评估。因此,该团队使用了三种相对先进的支持中文的 LLMs,包括 GPT-3.5-turbo、ChatGLM APIs 和 Sparkdesk,作为该团队构建流程中的难度过滤器。该团队对这些模型进行评估,分析它们对处理过的查询的响应,然后利用 GPT-4 对答案进行评分。通过计算响应的平均分,并将其作为信号,该团队丢弃了获得最高平均分的 50% 查询,这表明它们的难度较低。这种方法确保了样本的细致和精准选择,有效地区分了不同能力的强 LLMs。

方法

AlignBench评估系统的核心是使用GPT-4作为主要评估模型。这种方法充分利用了强大LLM的理解和分析能力,但同时也面临着确保评判一致性和公正性的挑战。

因此,在 AlignBench 中,该团队设计了一种新颖的规则校准多维逐点 LLM-as-Judge 的方法,图 2 展示了一个例子。

图片
图 2 :AlignBench 在逻辑推理类别中的评分过程

逐点评分与思维链

在使用 LLM-as-Judge 时,之前研究已经实现了两种评分方法:逐点评分 (point-wise grading)(Zheng et al., 2023)和成对评分 (pairwise grading)(Li et al., 2023)。然而,先前的研究表明,逐点评分与人类意图一致性相比于成对评分更高,后者存在位置偏差。此外,考虑到评估效率,逐点评分在费用和时间方面具有优势。因此,AlignBench 也采用逐点评分。在评估过程中,输入查询、模型响应和人类筛选的参考答案,输出为多维分析解释和最终评分,范围从 1 到 10。由于评分任务涉及复杂推理,引入思维链(Chain-of-Thought)有助于提高评分的可靠性和可解释性。

规则校准参考

为使AI评判更接近人类评判习惯,该方法提供了详细的评分指南,明确定义了不同分数区间的标准。特别地,将参考答案设置为8分作为评分基准。这种规则校准机制有效提高了评分的区分度,使得评分分布更加合理,更接近人类评判的结果。

图 3 绘制了人类评审、一般评审和规则校准评审的累积分布,显示规则校准评审与人类评估的累积分布之间的差距更小。通常,规则校准评审的高分(9 和 10)数量明显少于一般评审,这与人类评分习惯一致,从而增强了 AlignBench  的区分能力。

图片
图 3 :人类评审、一般评审和规则校准评审的累积分布

多维分析

由于任务性质和特点各不相同,使用相同的评估标准来评估所有任务是不公平的。例如,写作任务应优先考虑创造力,而逻辑推理任务则主要需要逻辑连贯性。为了解决这一问题,该团队提出了一种多维评分方法来评估 LLM 的响应,针对具体任务量身定制评估,从而提供更全面和有条理的解释。它不仅给出评分,还提供了详细的分析过程,使评估结果更加可靠和可解释,为中文大语言模型的对齐评估提供了有力工具。



人类评估

为了验证该团队为 AlignBench 设计的规则校准多维逐点评分 LLM-as-Judge 的方法,该团队对 AlignBench 选定的查询进行了广泛的人类评估。主要关注两个方面:方法与人类评审的一致性,以及方法对于更具人类可解释性的结果的批判质量。

一致性评估

基准:实验中包含了两个稳健的基准比较,以评估该团队的方法。请注意,所有方法均使用 GPT-4 进行评估,以确保公平性。1) 一般评分: 采用 MT-bench 中的中文版评估提示;2) 规则校准评分: 为了更好地指导模型比较模型答案和参考答案,并减少评分差异,该团队将评分规则纳入评估过程。该方法包含五个评分区间,每个区间与特定的质量描述相关联。参考答案的评分设定为 8,作为相对评分基准。

分析:一致性实验的结果呈现在表 3 中。结果显示,该团队的规则校准多维逐点评分 LLM-as-Judge 的方法表现最佳,特别是在样本级皮尔逊相关指标和成对一致性(不含平局)指标上,从而证明了与人类评审的一致性极佳。此外值得注意的是,所有方法在系统级皮尔逊相关指标上均表现出色,表明 LLM-as-Judge 的可靠性和稳健性。

图片
表 3 :一致性实验

质量评估

先前的研究主要关注模型评审与人类评审在评估 LLM-as-Judge 方法时的一致性。然而评估在评分之前模型评审生成的解释质量也具有重要意义。为了评估方法生成的解释质量,以及确定最终评分,该团队进行了成对质量比较实验。

图片
表 4:质量评估的结果

质量评估的结果呈现在表 4 中。结果表明,该团队的方法生成了最高质量的解释和有用的反馈,在成对比较中以高胜率击败了两个基准。此外,基于规则的评分在解释方面优于一般评分,该结果证明了评分规则能够提供明确的基于参考的标准,从而有助于清晰地比较参考答案和模型答案。

AlignBench 评测结果

基于 AlignBench 的 LLM-as-Judge 评分的有效性,该团队评测了多种 LLMs 的中文对齐能力。该团队使用 gpt-4-0613 作为评审模型来评估各个模型的表现。结果如表 5 所示,大多数闭源 LLMs 分数较高(超过或接近 6 分),表明这些 LLMs 在满足用户意图和提供高质量响应方面具有强大的能力,表现了优秀的对齐水平。对于中文 LLMs 而言,某些中文 LLMs 的表现与 gpt-3.5-turbo 相当,甚至略有超越,逐渐接近领先模型 gpt-4-1106-preview。

图片
表 5:多种 LLMs 的中文对齐能力

结论

在本文中,介绍了AlignBench,这是一个全面的多维度基准测试,用于评估大语言模型(LLMs)在中文环境下的对齐程度。该团队设计了一个可持续的、包含人工参与的数据策划流程,并改进了LLM作为评判者(LLM-as-Judge)的方法,使AlignBench能够对LLMs的中文对齐进行高质量的自动评估。

局限性

改进自动化 LLM-as-Judge

AlignBench 展示了利用 GPT-4 作为评审可以与人类评估实现相对高的一致性,但在一致性和细致度方面仍有很大改进空间。此外,研究表明 LLM-as-Judge 存在一些潜在的偏差,包括位置偏差、复杂度和自我增强等。这些偏差可能会影响对某些模型评估的正确性。

拓展主题与查询

尽管 AlignBench 在类别中拥有相对较大的查询集,但仍需要进一步丰富,以实现更稳定和可靠的 LLMs 评估。此外,AlignBench 目前未涵盖对长文本查询的评估。

司南 OpenCompass 将持续推动大模型评测的公正性和客观性,提供丰富的大模评测基准信息,以促进大语言模型技术的健康发展和持续创新。本篇解读的 AlignBench 评测集已在评测集社区 CompssHub 上线,欢迎大家点击了解更多!

https://hub.opencompass.org.cn/dataset-detail/AlignBench

同时,司南 OpenCompass 期待更多的社区用户在评测集社区 CompssHub 发布各专业领域的评测集,让您的学术成果在我们的平台上得到更多的关注与应用!

https://hub.opencompass.org.cn/home


http://www.kler.cn/a/454803.html

相关文章:

  • 某些iphone手机录音获取流stream延迟问题 以及 录音一次第二次不录音问题
  • “事务认证平台”:个人日常事务管理系统的诚信体系建设
  • 在交叉编译中,常见的ELF(elf)到底是什么意思?
  • Python+Django 技术实现自动化漏洞扫描系统开发
  • 探秘仓颉编程语言:使用体验与功能剖析
  • 04软件测试需求分析案例-用户登录
  • 什么是Top-p采样与Top-k采样?大模型推理时如何同时设置?解析Transformers库源代码
  • 智能合约在Web3中的作用:去中心化应用的基石
  • 探寻 OneCode 核心优势:MVVM 进阶与前后端协同之魅
  • HTML5 开发工具与调试
  • Kubernetes 的资源管理方式
  • 【Java 代码审计入门-02】SQL 漏洞原理与实际案例介绍
  • 负载均衡式在线OJ系统测试报告(Jmeter性能测试、Selenium自动化测试脚本)
  • 嵌入式单片机模数转换控制与实现详解
  • JS 设置按钮的loading效果
  • 开源 SOAP over UDP
  • OpenCV相机标定与3D重建(35)计算两幅图像之间本质矩阵(Essential Matrix)的函数findEssentialMat()的使用
  • Django框架:构建高效Web应用的强大工具
  • Bash语言的语法
  • CSS(四)display和float
  • 寻找目标值 (最优解)
  • Vue 3 中父子组件的交互与弹框控制:v-model 和事件传递的实践
  • FreeType矢量字符库的介绍、交叉编译以及安装
  • T7 TensorFlow入门实战——咖啡豆识别
  • Lua语言入门 - Lua常量
  • “日常事务信息化”:个人日常事务管理系统的未来发展