大语言模型的评测
大语言模型评测是评估这些模型在各种任务和场景下的性能和能力的过程。
能力
1. 基准测试(Benchmarking)
-
GLUE(General Language Understanding Evaluation):包含多个自然语言处理任务,如文本分类、情感分析、问答等,用于评估模型在不同任务上的性能。
-
SuperGLUE:GLUE的扩展版本,包含更复杂的任务,用于评估模型在更高级任务上的性能。
-
SQuAD(Stanford Question Answering Dataset): 用于评估模型在机器阅读理解任务上的性能,特别是问答任务。
2. 任务特定评测
-
文本生成:
- 使用BLEU、ROUGE等指标评估生成文本的质量。
- 人工评估生成文本的连贯性和相关性。
-
翻译:
- 使用BLEU、METEOR等指标评估翻译质量。
- 人工评估翻译的准确性和流畅性。
-
问答:
- 使用准确率、召回率等指标评估问答系统的性能。
- 人工评估答案的相关性和准确性。
3. 模型能力评测
-
常识推理:
- 评估模型在常识推理任务上的能力,如Winograd Schema Challenge。
-
逻辑推理:
- 评估模型在逻辑推理任务上的能力,如LAMBADA。
-
数学推理:
- 评估模型在数学问题解决上的能力,如MathQA。
4. 鲁棒性和偏见评测
-
鲁棒性:
- 评估模型在面对噪声、错误输入或对抗性样本时的性能。
- 使用对抗性测试和噪声注入等方法。
-
偏见和公平性:
- 评估模型在处理不同群体数据时的偏见和公平性。
- 使用公平性指标和偏见检测工具。
5. 用户反馈和人工评估
-
用户反馈:
- 收集用户对模型输出的反馈,了解模型在实际应用中的表现。
- 通过用户调查和反馈表收集数据。
-
人工评估:
-
由人类评估者对模型输出进行评估,特别是在自动评估指标不适用的情况下。
-
评估模型输出的连贯性、相关性和准确性。
依据为标准答案的类型,一般以下几种类型:
选项:常见于分类任务,判断题以及选择题,目前这类问题的数据集占比最大,有 MMLU, CEval 数据集等等,评估标准一般使用准确率–ACCEvaluator。
-
短语:常见于问答以及阅读理解任务,这类数据集主要包括 CLUE_CMRC, CLUE_DRCD, DROP 数据集等等,评估标准一般使用匹配率–EMEvaluator。
句子:常见于翻译以及生成伪代码、命令行任务中,主要包括 Flores, Summscreen, Govrepcrs, Iwdlt2017 数据集等等,评估标准一般使用 BLEU(Bilingual Evaluation Understudy)–BleuEvaluator。
段落:常见于文本摘要生成的任务,常用的数据集主要包括 Lcsts, TruthfulQA, Xsum 数据集等等,评估标准一般使用 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)–RougeEvaluator。
代码:常见于代码生成的任务,常用的数据集主要包括 Humaneval,MBPP 数据集等等,评估标准一般使用执行通过率以及 pass@k,目前 Opencompass 支持的有MBPPEvaluator、HumanEvalEvaluator。
性能
1. 性能评测
-
推理速度:
- 评估模型在不同硬件上的推理速度和效率。
- 使用吞吐量、延迟等指标。
-
资源消耗:
- 评估模型在推理和训练过程中对计算资源的消耗。
- 使用内存使用、计算时间等指标。
评估指标
常见的评估指标:
1. 文本生成
-
BLEU(Bilingual Evaluation Understudy):用于评估机器翻译和文本生成的质量,通过比较生成文本与参考文本之间的重叠程度来计算得分。BLEU计算的是生成文本与参考文本之间的n-gram精度,并结合一个惩罚因子来处理生成文本长度与参考文本长度之间的差异。
-
ROUGE(Recall-Oriented Understudy for Gisting Evaluation):用于评估文本摘要和生成的质量,通过计算生成文本与参考文本之间的重叠程度来计算得分。ROUGE计算的是生成文本与参考文本之间的n-gram召回率,并结合其他指标来评估生成文本的连贯性和相关性
-
CIDEr(Consensus-based Image Description Evaluation):用于评估图像描述生成的质量,通过计算生成描述与参考描述之间的共识度来计算得分。CIDEr计算的是生成描述与参考描述之间的n-gram共识度,并结合一个惩罚因子来处理生成描述长度与参考描述长度之间的差异
-
METEOR(Metric for Evaluation of Translation with Explicit ORdering):用于评估机器翻译和文本生成的质量,通过计算生成文本与参考文本之间的相似度来计算得分。
2. 分类和标签任务
-
准确率(Accuracy):正确预测的样本数占总样本数的比例。
-
精确率(Precision):正确预测为正类的样本数占预测为正类的样本数的比例。
-
召回率(Recall): 正确预测为正类的样本数占实际为正类的样本数的比例。
-
F1分数(F1 Score):精确率和召回率的调和平均值,用于综合评估分类性能。
3. 问答任务
-
准确率(Accuracy):正确回答的问题数占总问题数的比例。
-
EM(Exact Match):生成的答案与参考答案完全匹配的比例。
-
F1分数(F1 Score):通过计算生成答案与参考答案之间的重叠程度来计算得分。
4. 翻译任务
-
BLEU(Bilingual Evaluation Understudy):用于评估机器翻译的质量,通过比较生成翻译与参考翻译之间的重叠程度来计算得分。
-
METEOR(Metric for Evaluation of Translation with Explicit ORdering):用于评估机器翻译的质量,通过计算生成翻译与参考翻译之间的相似度来计算得分。
5. 鲁棒性和偏见评测
-
对抗性测试(Adversarial Testing):通过引入对抗性样本评估模型的鲁棒性。
-
公平性指标(Fairness Metrics):评估模型在处理不同群体数据时的公平性,如性别、种族等。
6. 推理速度和资源消耗
-
吞吐量(Throughput):模型在单位时间内处理的样本数。
-
延迟(Latency): 模型处理单个样本所需的时间。
-
内存使用(Memory Usage): 模型在推理和训练过程中对内存的消耗。
-
计算时间(Computational Time): 模型在推理和训练过程中所需的计算时间。