当前位置: 首页 > article >正文

DeepSeek-V3 正式发布,已在网页端和 API 全面上线,性能领先,速度飞跃。

DeepSeek-V3 在推理速度上相较历史模型有了大幅提升。在目前大模型主流榜单中,DeepSeek-V3 在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。

简介

DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数,每个 token 激活 37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多 token 预测训练目标以获得更强大的性能。在 14.8 万亿个多样化和高质量的 token 上对 DeepSeek-V3 进行了预训练,然后进行监督微调和强化学习阶段,以充分利用其功能。综合评估表明,DeepSeek-V3 优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 仅需要 2.788M H800 GPU 小时即可完成完整训练。此外,它的训练过程非常稳定。

模型摘要

架构:创新负载平衡策略和训练目标

DeepSeek-V3 基本架构图。 遵循 DeepSeek-V2,在 DeepSeek-V2 高效的架构之上采用 MLA 和 DeepSeekMoE 进行高效推理和经济训练,首创了一种无辅助损失的负载平衡策略,最大限度地减少了因鼓励负载平衡而导致的性能下降。还研究了多标记预测 (MTP) 目标,并证明它有利于模型性能。它还可以用于推测解码以加速推理。

预训练:实现终极训练效率

我们设计了FP8混合精度训练框架,并首次在超大规模模型上验证了FP8训练的可行性和有效性。 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了完全计算-通信重叠。 这大大提高了我们的训练效率并降低了训练成本,使我们能够在不增加额外开销的情况下进一步扩大模型规模。 我们以仅 2.664M H800 GPU 小时的经济成本,在 14.8T token 上完成了 DeepSeek-V3 的预训练,得到了目前最强的开源基础模型,预训练之后的后续训练阶段仅需 0.1M GPU 小时。

训练后:来自 DeepSeek-R1 的知识提炼

我们引入了一种创新方法,将长思维链 (CoT) 模型(特别是 DeepSeek R1 系列模型之一)中的推理能力提炼到标准 LLM(尤其是 DeepSeek-V3)中。我们的流程巧妙地将 R1 的验证和反射模式融入 DeepSeek-V3,并显著提高了其推理性能。同时,我们还控制了 DeepSeek-V3 的输出样式和长度。

模型下载

  • DeepSeek-V3-基础版 671B 37B 128K https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

  • DeepSeek-V3 671B 37B 128K https://huggingface.co/deepseek-ai/DeepSeek-V3

注:HuggingFace 上的 DeepSeek-V3 模型总大小为 685B,其中包括 671B 的主模型权重和 14B 的多令牌预测(MTP)模块权重。

为了确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供多种在本地运行模型的方法。有关分步指导,请查看第 6 节:如何在本地运行。

对于希望深入了解的开发人员,我们建议浏览README_WEIGHTS.md,了解有关主模型权重和多标记预测 (MTP) 模块的详细信息。请注意,MTP 支持目前正在社区内积极开发,我们欢迎您的贡献和反馈。

评估结果

基础模型

标准基准

最佳结果以粗体显示。差距不超过 0.3 的分数被视为处于同一水平。DeepSeek-V3 在大多数基准测试中都取得了最佳表现,尤其是在数学和代码任务上。

上下文窗口

(NIAH) 测试的评估结果Needle In A Haystack。DeepSeek-V3 在高达128K 的所有上下文窗口长度上均表现良好。

聊天模型

标准基准(大于 67B 的模型)

所有模型的评估配置均将输出长度限制为 8K。包含少于 1000 个样本的基准测试会使用不同的温度设置进行多次测试,以得出可靠的最终结果。DeepSeek-V3 是性能最佳的开源模型,并且与前沿闭源模型相比也表现出了竞争力。

开放式生成评估

英语开放式对话评估。对于 AlpacaEval 2.0,使用长度控制的胜率作为衡量标准。

聊天网站和 API 平台

  • 在DeepSeek的官方网站上与DeepSeek-V3聊天: chat.deepseek.com

  • 在DeepSeek平台上提供与 OpenAI 兼容的 API: platform.deepseek.com

本地运行

DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署:

  • DeepSeek-Infer 演示:为 FP8 和 BF16 推理提供了一个简单、轻量级的演示。

  • SGLang:完全支持 BF16 和 FP8 推理模式下的 DeepSeek-V3 模型。

  • LMDeploy:支持本地和云部署的高效 FP8 和 BF16 推理。

  • TensorRT-LLM:目前支持 BF16 推理和 INT4/8 量化,即将支持 FP8。

  • vLLM:支持具有 FP8 和 BF16 模式的 DeekSeek-V3 模型,实现张量并行和流水线并行。

  • AMD GPU:支持在 BF16 和 FP8 模式下通过 SGLang 在 AMD GPU 上运行 DeepSeek-V3 模型。

  • 华为Ascend NPU:支持在华为Ascend设备上运行DeepSeek-V3。


http://www.kler.cn/a/468803.html

相关文章:

  • 生信技能69 - 使用deepvariant进行对基因组指定区域Calling SNPs/Indels
  • OpenGL —— 流媒体播放器 - ffmpeg解码rtsp流,opengl渲染yuv视频(附源码,glfw+glad)
  • R语言基础| 中级绘图
  • 清除数字栈
  • 单片机-LED点阵实验
  • 以太网UDP协议栈实现(支持ARP、ICMP、UDP)--FPGA学习笔记26
  • 【第二部分--Python之基础】05 类与对象
  • 详细讲一下Canvas标签的基础使用和应用场景
  • 集成方案:基于慧集通的某客户多系统间集成简略方案(致远OA、NCC高级版、三方物业系统、发票税务系统等)
  • 模拟出一个三维表面生成表面点,计算体积,并处理边界点
  • 系统架构师考试-CBSE基于构件的软件工程
  • 前端开发语言涉及到 的注解(Annotations)
  • vue3 vite 使用 代理转发
  • 阿赵的MaxScript学习笔记分享十六《MaxScript和WinForm交互》
  • 【Python系列】Python 中的 `enumerate` 函数及其应用
  • 基于区块链的共享算力系统概念方案
  • Django Admin 以管理 AWS Lambda 函数
  • 深度信念网络 (Deep Belief Network, DBN) 算法详解与PyTorch实现
  • 性能测试04|JMeter:连接数据库、逻辑控制器、定时器
  • Linux中操作中的无痕命令history技巧
  • Sonic:开源Go语言开发的高性能博客平台
  • 第五届神经网络、信息与通信工程国际学术会议(NNICE 2025)
  • Java与AI:构建智能应用的强大组合
  • git使用指南-实践-搭建git私服
  • 【最新版】智慧小区物业管理小程序源码+uniapp全开源
  • 【每日学点鸿蒙知识】模拟器开启网络、长时任务、兼容性测试支持、丢帧定位、SO中访问rawfile等