评估篇| 大模型评测综述
在传统的自然语言任务下,如分类等,经常会用精确率、F1等指标,来评测模型的好坏。随着大模型技术研究的快速发展,以往的指标,对于大模型评估显得过于单薄。如何准确地评估大语言模型在不同维度的能力水平,已经成为当前研究的热点问题。为了全面考察大语言模型的有效性,研究 人员设计了多种评测任务并创建了对应的数据集,用于对模型性能进行评估与分析。
为更为准确、系统地介绍大模型的评测方法,根据研发方式将大语言模型划分为两种主要类型:
第一类是基础大语言模型,这类模型仅经过预训练,未经任何特定任务的适配;
第二类是微调大语言模型,这类模型在预训练的基础上,针对特定指令或对齐需求进行了微调。
01 基础大语言模型
经过预训练获得的模型。它们通常具备丰富的世界知识与通用的语言能力,是后续研发各类大语言模型及其应用的基础。在评测这类模型时,主要关注其基础能力。典型的能力包括复杂推理、知识使用等。由于这些基础能力可以通过明确定义的任务来进行有效评测,因此基于评测基准的方法已经成为了评估基础大语言模型性能的主要手段。
1、常用评测数据集:在评测基础大语言模型时,研究人员通常会采用一系列经 典的