当前位置：首页 > article >正文

如何评估大语言模型（LLMs）

article 2025/3/4 12:11:11

评估方法、指标及不同语言任务的最佳实践解析

How to Evaluate LLMs

概述

本文提供了一个概念性指南，帮助理解如何评估为各种语言任务构建的大语言模型（LLMs）。
我们将介绍常见的评估指标，并说明它们适用于哪些特定语言任务，随后列出一系列指南和最佳实践，以构建全面而稳健的评估方法。

LLMs 评估的常见指标概览

LLMs 的评估方式取决于其主要执行的语言任务。下图总结了几种常见的评估指标及其适用的任务。

Common metrics to evaluate several language tasks in LLMs

尽管大多数指标可以用于多种语言任务，但我们可以根据它们最适合的主要任务进行分类。

1. 文本分类 LLMs 的评估指标

对于专门用于分类任务（如情感分析、意图识别）的 LLMs，评估其性能的核心是衡量分类准确率（Accuracy）。

最简单的方法是计算模型正确分类的文本数量占测试集总样本数的比例。但更全面的分类指标还包括：

F1-score（F1 分数）：兼顾查准率（Precision）和查全率（Recall），适用于类别不均衡的数据集。
ROC-AUC（受试者工作特征曲线下的面积）：衡量模型区分不同类别的能力，数值越接近 1 表示模型越优秀。

2. 文本生成 LLMs 的评估指标

对于文本生成任务（如 GPT 模型），需要使用更具体的指标，例如：

① 困惑度（Perplexity, PP）

衡量模型预测词序列的能力。
假设生成的文本包含 N 个 token，每个 token w_i 的概率为 P(w_i)，则困惑度计算公式如下：

解释：

较低的困惑度表示更好的性能，意味着模型对正确的词序列赋予了更高的概率，输出更加自信。

3. 文本摘要 LLMs 的评估指标

ROUGE（Recall-Oriented Understudy for Gist Evaluation） 是评估文本摘要模型的流行指标。

它衡量模型生成的摘要与人工撰写的参考摘要之间的重叠程度，包括多个变体：

ROUGE-1：计算**单个词（unigram）**的匹配情况。
ROUGE-2：计算**二元词组（bigram）**的匹配情况。
ROUGE-L：基于最长公共子序列（LCS），适用于自然语言文本。

注意：

ROUGE 依赖于人工参考摘要，因此成本较高。
可通过人工评估结合自动化评估，确保生成摘要的质量。

4. 机器翻译 LLMs 的评估指标

除了 ROUGE，机器翻译任务还使用以下指标：

① BLEU（BiLingual Evaluation Understudy）

BLEU 通过计算n-gram 的重叠率，衡量模型翻译文本与参考翻译的相似度。

评分范围：0 到 1，越高表示与参考翻译越接近。
具有长度惩罚（Brevity Penalty），防止模型生成过短的翻译。

② METEOR（Metric for Evaluation of Translations with Explicit ORdering）

相比 BLEU，METEOR 更全面，因为它考虑：

n-gram 匹配
查准率和查全率
单词顺序
词干化（stemming）和同义词

由于其更强的语义匹配能力，METEOR 也可用于其他文本生成任务（如摘要、问答）。

5. 问答（Q-A） LLMs 的评估指标

问答（Q-A）任务可分为两类：

抽取式问答（Extractive Q-A）：模型从给定上下文中提取答案。
生成式问答（Abstractive Q-A）：模型生成答案，而不是直接提取文本。

不同任务采用不同的评估方式：

① 抽取式 Q-A

F1-score：计算模型预测答案与真实答案的重叠程度。
精确匹配率（Exact Match, EM）：预测答案必须完全匹配真实答案，否则得分为 0。

② 生成式 Q-A

ROUGE、BLEU、METEOR：用于评估生成答案的质量。
困惑度（Perplexity）：适用于自由文本生成任务，而非严格的 Q-A 任务。

6. 评估指标示例

下表展示了一些评估指标的示例应用：

指标	参考答案	模型输出	评分	评估方式
困惑度（PP）	"The cat sat on the mat"	"A cat sits on the mat"	较低（更好）	预测文本的可预测性
ROUGE-1	"The quick brown fox jumps"	"The brown fox quickly jumps"	较高（更好）	计算匹配的单词数
BLEU	"I love eating pizza"	"I really enjoy eating pizza"	较高（更好）	计算n-gram 匹配
METEOR	"She plays tennis every weekend"	"She plays tennis on weekends"	较高（更好）	允许更灵活的匹配
Exact Match（EM）	"Paris is the capital of France"	"Paris is the capital of France"	1（完美匹配）	仅当完全匹配时得分 1
Exact Match（EM）	"Paris is the capital of France"	"Paris is France's capital city"	0（不匹配）	细微变化导致不匹配

LLMs 评估的指南与最佳实践

为了构建稳健的评估方法，请遵循以下原则：

✅ 使用多种评估指标，避免单一指标导致偏差。
✅ 结合人工反馈，量化评估指标无法捕捉的语义和可读性。
✅ 应对模型幻觉（Hallucination），可使用FEVER 评估事实准确性，尤其是在医疗、法律等领域。
✅ 考虑计算效率，如使用 BLEU 或 F1 进行批量评估，将人工评估用于关键任务。
✅ 评估公平性、偏见和伦理问题，确保模型在不同群体和语言之间公平，避免强化有害偏见。