Qwen2.5-max 性能
目录
- Figure
- 性能
- 1. 通用知识与理解能力
- 2. 代码生成能力
- 3. 数学与逻辑推理
- 总结
Figure
性能
Qwen2.5-Max在多个基准测试(benchmark)中表现出色,整体性能优于Qwen2.5-72B、DeepSeek-V3和LLaMA3.1-405B,尤其在数学推理、代码生成和通用知识问答方面优势明显。以下是对各个benchmark的解释:
1. 通用知识与理解能力
MMLU(Massive Multitask Language Understanding)
评估模型在57个学科(如历史、物理、生物等)的知识掌握和推理能力。
Qwen2.5-Max的 87.9 分在所有模型中最高,说明其通识知识和理解能力较强。
MMLU-Pro
更高级的MMLU版本,测试模型在更具挑战性的任务上的表现。
Qwen2.5-Max得分 69.0,明显高于其他模型,表现优越。
BBH(Big Bench Hard)
测试模型在逻辑推理、数学、编程等多个高难度任务上的能力。
Qwen2.5-Max得分 89.3,高于所有其他模型,说明其复杂推理能力强。
C-Eval
一个面向中文的学术评测集合,涵盖多个领域的考试题目。
Qwen2.5-Max得分 92.2,显示其在中文环境下的卓越理解和推理能力。
CMMLU(Chinese MMLU)
专门针对中文领域的知识评测,类似于MMLU,但更关注中国文化、历史、地理等。
Qwen2.5-Max得分 91.9,在所有模型中最高。
2. 代码生成能力
HumanEval
由OpenAI创建的代码生成基准,测试模型在Python编程任务中的代码编写正确率。
Qwen2.5-Max得分 73.2,明显高于其他模型,说明其代码生成能力强。
MBPP(Mostly Basic Python Programming)
另一种Python编程能力评测,关注基础编程任务的解决能力。
Qwen2.5-Max得分 80.6,在所有模型中最高。
CRUX-I 和 CRUX-O
- CRUX-I(输入约束代码推理):评估模型在代码推理任务上的能力。
- CRUX-O(输出约束代码推理):测试模型理解代码输出的能力。
Qwen2.5-Max分别得分 70.1(CRUX-I) 和 79.1(CRUX-O),均领先其他模型。
3. 数学与逻辑推理
GSM8K
由8,500道小学数学题组成,测试模型的数学推理能力。
Qwen2.5-Max得分 94.5,大幅领先其他模型,说明其在数学问题推理上的表现极佳。
MATH
评估模型在高中及大学数学题(如代数、几何、微积分)上的能力。
Qwen2.5-Max得分 68.5,同样高于其他模型。
总结
Qwen2.5-Max在通识知识、编程、数学推理、中文理解等多个方面都表现出色,尤其在数学推理(GSM8K: 94.5)和代码生成(MBPP: 80.6, HumanEval: 73.2)上明显领先。相较于Qwen2.5-72B、DeepSeek-V3和LLaMA3.1-405B,Qwen2.5-Max在所有基准测试上均表现更优,说明其在多模态任务、逻辑推理、数学推理和代码能力上具备极强的竞争力。
参考链接:https://qwenlm.github.io/zh/blog/qwen2.5-max/