当前位置: 首页 > article >正文

Deepseek-R1性能指标

目录

    • Figure
    • 基准测试任务
      • 1. AIME 2024 (Pass@1)
      • 2. Codeforces (Percentile)
      • 3. GPQA Diamond (Pass@1)
      • 4. MATH-500 (Pass@1)
      • 5. MMLU (Pass@1)
      • 6. SWE-bench Verified (Resolved)

Figure

在这里插入图片描述

基准测试任务

1. AIME 2024 (Pass@1)

主要衡量模型在数学竞赛题目上的解题能力。

  • DeepSeek-R1 的表现为 79.8%,略高于 OpenAI-o1-1217(79.2%),但优于 OpenAI-o1-mini(72.6%)和 DeepSeek-V3(63.6%)。
  • OpenAI-o1-mini 在该任务上的表现最弱(39.2%)。

2. Codeforces (Percentile)

评估模型在编程竞赛环境中的排名。

  • DeepSeek-R1 取得 96.3%,仅比 OpenAI-o1-1217(96.6%)略低,但显著优于 DeepSeek-R1-32B(90.6%)和 OpenAI-o1-mini(93.4%)。
  • DeepSeek-V3 的表现相对较弱(58.7%)。

3. GPQA Diamond (Pass@1)

衡量模型在高难度通用知识问答(General-Purpose Question Answering)任务上的解答能力。

  • DeepSeek-R1 取得 71.5%,略低于 OpenAI-o1-1217(75.7%),但比 DeepSeek-V3(62.1%)和 OpenAI-o1-mini(60.0%)表现更好。

4. MATH-500 (Pass@1)

评估模型在数学题目上的准确性。

  • DeepSeek-R1 的表现最高(97.3%),超过 OpenAI-o1-1217(96.4%)、DeepSeek-R1-32B(94.3%),比 OpenAI-o1-mini(90.2%)和 DeepSeek-V3(90.0%)高出不少。

5. MMLU (Pass@1)

该任务测试模型在多学科知识上的表现。

  • DeepSeek-R1 的表现为 90.8%,略低于 OpenAI-o1-1217(91.8%),但比 DeepSeek-R1-32B(87.4%)、OpenAI-o1-mini(85.2%)和 DeepSeek-V3(88.5%)更优。

6. SWE-bench Verified (Resolved)

衡量模型在软件工程任务中的能力。

  • DeepSeek-R1 的分数为 49.2%,略高于 OpenAI-o1-1217(48.9%),远高于 OpenAI-o1-mini(41.6%)和 DeepSeek-V3(42.0%),但仍然是所有任务中整体表现最弱的。

论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf


http://www.kler.cn/a/523645.html

相关文章:

  • 渗透测试之WAF规则触发绕过规则之规则库绕过方式
  • 使用Python爬虫获取1688商品拍立淘API接口(item_search_img)的实战指南
  • c++:vector
  • 【Rust自学】15.7. 循环引用导致内存泄漏
  • 【PySide6快速入门】QLineEdit 输入框
  • 8639 折半插入排序
  • 【Android】问deepseek存储访问
  • 当AI学会“顿悟”:DeepSeek-R1如何用强化学习突破推理边界?
  • TypeScript中的函数:类型安全与高级特性
  • Vue.js组件开发-实现下载动态进度条
  • 机器学习(7):集成学习
  • HTML中的元素(elements)
  • 特征衍生与XGB
  • RockyLinxu9远程登录问题
  • HashMap讲解
  • windows lm studio 0.3.8无法下载模型,更换镜像
  • 复古壁纸中棕色系和米色系哪个更受欢迎?
  • 09 以太坊技术介绍
  • 数据分析和AI丨应对AI实施挑战,工程领域AI应用的五大方法
  • 为AI聊天工具添加一个知识系统 之75 详细设计之16 正则表达式 之3 正则表达式模板
  • Highcharts 柱形图:深入解析与最佳实践
  • Openfga 授权模型搭建
  • StarRocks BE源码编译、CLion高亮跳转方法
  • http3网站的设置(AI不会配,得人工配)
  • DeepSeek大模型技术解析:从架构到应用的全面探索
  • CNC研究笔记: