当前位置：首页 > article >正文

大语言模型的评测

article 2025/3/3 7:43:35

大语言模型评测是评估这些模型在各种任务和场景下的性能和能力的过程。

GLUE（General Language Understanding Evaluation）：包含多个自然语言处理任务，如文本分类、情感分析、问答等，用于评估模型在不同任务上的性能。
SuperGLUE：GLUE的扩展版本，包含更复杂的任务，用于评估模型在更高级任务上的性能。
SQuAD（Stanford Question Answering Dataset）：用于评估模型在机器阅读理解任务上的性能，特别是问答任务。

用户反馈：
- 收集用户对模型输出的反馈，了解模型在实际应用中的表现。
- 通过用户调查和反馈表收集数据。
人工评估：
- 由人类评估者对模型输出进行评估，特别是在自动评估指标不适用的情况下。
- 评估模型输出的连贯性、相关性和准确性。
  
  依据为标准答案的类型，一般以下几种类型：
  选项：常见于分类任务，判断题以及选择题，目前这类问题的数据集占比最大，有 MMLU, CEval 数据集等等，评估标准一般使用准确率–ACCEvaluator。

短语：常见于问答以及阅读理解任务，这类数据集主要包括 CLUE_CMRC, CLUE_DRCD, DROP 数据集等等，评估标准一般使用匹配率–EMEvaluator。

句子：常见于翻译以及生成伪代码、命令行任务中，主要包括 Flores, Summscreen, Govrepcrs, Iwdlt2017 数据集等等，评估标准一般使用 BLEU(Bilingual Evaluation Understudy)–BleuEvaluator。

段落：常见于文本摘要生成的任务，常用的数据集主要包括 Lcsts, TruthfulQA, Xsum 数据集等等，评估标准一般使用 ROUGE（Recall-Oriented Understudy for Gisting Evaluation）–RougeEvaluator。

代码：常见于代码生成的任务，常用的数据集主要包括 Humaneval，MBPP 数据集等等，评估标准一般使用执行通过率以及 pass@k，目前 Opencompass 支持的有MBPPEvaluator、HumanEvalEvaluator。

评估指标

常见的评估指标：

BLEU（Bilingual Evaluation Understudy）：用于评估机器翻译和文本生成的质量，通过比较生成文本与参考文本之间的重叠程度来计算得分。BLEU计算的是生成文本与参考文本之间的n-gram精度，并结合一个惩罚因子来处理生成文本长度与参考文本长度之间的差异。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）：用于评估文本摘要和生成的质量，通过计算生成文本与参考文本之间的重叠程度来计算得分。ROUGE计算的是生成文本与参考文本之间的n-gram召回率，并结合其他指标来评估生成文本的连贯性和相关性
CIDEr（Consensus-based Image Description Evaluation）：用于评估图像描述生成的质量，通过计算生成描述与参考描述之间的共识度来计算得分。CIDEr计算的是生成描述与参考描述之间的n-gram共识度，并结合一个惩罚因子来处理生成描述长度与参考描述长度之间的差异
METEOR（Metric for Evaluation of Translation with Explicit ORdering）：用于评估机器翻译和文本生成的质量，通过计算生成文本与参考文本之间的相似度来计算得分。

BLEU（Bilingual Evaluation Understudy）：用于评估机器翻译的质量，通过比较生成翻译与参考翻译之间的重叠程度来计算得分。
METEOR（Metric for Evaluation of Translation with Explicit ORdering）：用于评估机器翻译的质量，通过计算生成翻译与参考翻译之间的相似度来计算得分。