Deepseek-R1性能指标
目录
- Figure
- 基准测试任务
- 1. AIME 2024 (Pass@1)
- 2. Codeforces (Percentile)
- 3. GPQA Diamond (Pass@1)
- 4. MATH-500 (Pass@1)
- 5. MMLU (Pass@1)
- 6. SWE-bench Verified (Resolved)
Figure
基准测试任务
1. AIME 2024 (Pass@1)
主要衡量模型在数学竞赛题目上的解题能力。
- DeepSeek-R1 的表现为 79.8%,略高于 OpenAI-o1-1217(79.2%),但优于 OpenAI-o1-mini(72.6%)和 DeepSeek-V3(63.6%)。
- OpenAI-o1-mini 在该任务上的表现最弱(39.2%)。
2. Codeforces (Percentile)
评估模型在编程竞赛环境中的排名。
- DeepSeek-R1 取得 96.3%,仅比 OpenAI-o1-1217(96.6%)略低,但显著优于 DeepSeek-R1-32B(90.6%)和 OpenAI-o1-mini(93.4%)。
- DeepSeek-V3 的表现相对较弱(58.7%)。
3. GPQA Diamond (Pass@1)
衡量模型在高难度通用知识问答(General-Purpose Question Answering)任务上的解答能力。
- DeepSeek-R1 取得 71.5%,略低于 OpenAI-o1-1217(75.7%),但比 DeepSeek-V3(62.1%)和 OpenAI-o1-mini(60.0%)表现更好。
4. MATH-500 (Pass@1)
评估模型在数学题目上的准确性。
- DeepSeek-R1 的表现最高(97.3%),超过 OpenAI-o1-1217(96.4%)、DeepSeek-R1-32B(94.3%),比 OpenAI-o1-mini(90.2%)和 DeepSeek-V3(90.0%)高出不少。
5. MMLU (Pass@1)
该任务测试模型在多学科知识上的表现。
- DeepSeek-R1 的表现为 90.8%,略低于 OpenAI-o1-1217(91.8%),但比 DeepSeek-R1-32B(87.4%)、OpenAI-o1-mini(85.2%)和 DeepSeek-V3(88.5%)更优。
6. SWE-bench Verified (Resolved)
衡量模型在软件工程任务中的能力。
- DeepSeek-R1 的分数为 49.2%,略高于 OpenAI-o1-1217(48.9%),远高于 OpenAI-o1-mini(41.6%)和 DeepSeek-V3(42.0%),但仍然是所有任务中整体表现最弱的。
论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf