当前位置：首页 > article >正文

Deepseek-R1性能指标

article 2025/1/30 18:06:06

Figure

在这里插入图片描述

基准测试任务

1. AIME 2024 (Pass@1)

主要衡量模型在数学竞赛题目上的解题能力。

DeepSeek-R1 的表现为 79.8%，略高于 OpenAI-o1-1217（79.2%），但优于 OpenAI-o1-mini（72.6%）和 DeepSeek-V3（63.6%）。
OpenAI-o1-mini 在该任务上的表现最弱（39.2%）。

2. Codeforces (Percentile)

评估模型在编程竞赛环境中的排名。

DeepSeek-R1 取得 96.3%，仅比 OpenAI-o1-1217（96.6%）略低，但显著优于 DeepSeek-R1-32B（90.6%）和 OpenAI-o1-mini（93.4%）。
DeepSeek-V3 的表现相对较弱（58.7%）。

3. GPQA Diamond (Pass@1)

衡量模型在高难度通用知识问答（General-Purpose Question Answering）任务上的解答能力。

DeepSeek-R1 取得 71.5%，略低于 OpenAI-o1-1217（75.7%），但比 DeepSeek-V3（62.1%）和 OpenAI-o1-mini（60.0%）表现更好。

4. MATH-500 (Pass@1)

评估模型在数学题目上的准确性。

DeepSeek-R1 的表现最高（97.3%），超过 OpenAI-o1-1217（96.4%）、DeepSeek-R1-32B（94.3%），比 OpenAI-o1-mini（90.2%）和 DeepSeek-V3（90.0%）高出不少。

5. MMLU (Pass@1)

该任务测试模型在多学科知识上的表现。

DeepSeek-R1 的表现为 90.8%，略低于 OpenAI-o1-1217（91.8%），但比 DeepSeek-R1-32B（87.4%）、OpenAI-o1-mini（85.2%）和 DeepSeek-V3（88.5%）更优。

6. SWE-bench Verified (Resolved)

衡量模型在软件工程任务中的能力。

DeepSeek-R1 的分数为 49.2%，略高于 OpenAI-o1-1217（48.9%），远高于 OpenAI-o1-mini（41.6%）和 DeepSeek-V3（42.0%），但仍然是所有任务中整体表现最弱的。

论文链接：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

查看全文

http://www.kler.cn/a/523645.html

渗透测试之WAF规则触发绕过规则之规则库绕过方式

使用Python爬虫获取1688商品拍立淘API接口（item_search_img）的实战指南

c++：vector

【Rust自学】15.7. 循环引用导致内存泄漏

【PySide6快速入门】QLineEdit 输入框

8639 折半插入排序

【Android】问deepseek存储访问

当AI学会“顿悟”：DeepSeek-R1如何用强化学习突破推理边界？

TypeScript中的函数：类型安全与高级特性

Vue.js组件开发-实现下载动态进度条

机器学习（7）：集成学习

HTML中的元素（elements）

特征衍生与XGB

RockyLinxu9远程登录问题

HashMap讲解

windows lm studio 0.3.8无法下载模型，更换镜像

复古壁纸中棕色系和米色系哪个更受欢迎？

09 以太坊技术介绍

数据分析和AI丨应对AI实施挑战，工程领域AI应用的五大方法

为AI聊天工具添加一个知识系统之75 详细设计之16 正则表达式之3 正则表达式模板

Highcharts 柱形图：深入解析与最佳实践

Openfga 授权模型搭建

StarRocks BE源码编译、CLion高亮跳转方法

http3网站的设置(AI不会配，得人工配)

DeepSeek大模型技术解析：从架构到应用的全面探索

CNC研究笔记：