DeepSeek 开源模型全解析(2024.1.1–2025.2.6)
目录
一、通用大语言模型:DeepSeek-V3 系列 137
二、推理优化模型:DeepSeek-R1 系列 811
三、多模态模型:Janus 系列 10
四、生态整合与部署建议
五、总结与展望
以下为 DeepSeek 在 2024 年 1 月至 2025 年 2 月期间发布的开源模型及其核心信息,涵盖自然语言处理、多模态与推理优化三大领域:
一、通用大语言模型:DeepSeek-V3 系列 137
模型名称 | 版本号 | 参数规模 | 特点 | 公布时间 | 下载地址 |
---|---|---|---|---|---|
DeepSeek-V3 | 1.0 | 总参数 671B,激活参数 37B | - 架构创新:首款融合 FP8 混合精度训练、多头潜在注意力(MLA)与 MoE 架构的模型,显存消耗降低 30% - 性能对标:在数学(MATH 评测 61.6 EM)、代码(HumanEval 65.2 Pass@1)等任务上超越 GPT-4o 与 Claude-3.5-Sonnet - 效率提升:生成速度达 60 TPS(前代的 3 倍),支持 128K 长上下文 | 2024-12-26 | Hugging Face |
DeepSeek-V3-Base | 1.0 | 同 DeepSeek-V3 | - 提供原生 FP8 权重,支持 SGLang、LMDeploy 等推理框架 - 开源社区已适配 TensorRT-LLM 和 MindIE 的 BF16 推理优化 | 2024-12-26 | Hugging Face |
部署要求:
-
硬件:推荐使用 4 台华为 Atlas 800I A2 服务器(每台配置 8×64G 显存)2
-
软件:支持昇腾 MindIE 镜像(预置推理脚本)或 Hugging Face 本地部署工具链
二、推理优化模型:DeepSeek-R1 系列 811
模型名称 | 版本号 | 参数规模 | 特点 | 公布时间 | 下载地址 |
---|---|---|---|---|---|
DeepSeek-R1 | 1.0 | 总参数 671B | - 强化学习驱动:通过纯强化学习实现复杂推理能力,无需监督微调 - 性能对标:在 LiveCodeBench 等编程任务中超越 OpenAI o1,数学推理接近 Claude-3.5-Sonnet - 思维链 API:输出包含推理过程(最长 32K tokens),支持企业级应用透明化决策 | 2025-01-23 | Hugging Face |
DeepSeek-R1-Zero | 1.0 | 总参数 671B | - 纯 RL 训练:首个无需监督微调的推理模型,验证强化学习在复杂任务中的潜力 - 局限:输出存在重复与语言混杂问题,主要用于研究场景 | 2025-01-21 | Hugging Face |
R1-Distill 系列 | 1.0 | 15B–70B | - 知识蒸馏:从 R1 蒸馏的小模型,32B 和 70B 版本性能对标 OpenAI-o1-mini - 硬件友好:支持低显存设备部署 | 2025-01-23 | Hugging Face |
部署要求:
-
硬件:R1 全量版需与 DeepSeek-V3 类似配置;蒸馏版 70B 可在单台 A100(80G)运行
-
API 集成:支持腾讯云 HAI、阿里云 PAI 等平台一键部署611
三、多模态模型:Janus 系列 10
模型名称 | 版本号 | 参数规模 | 特点 | 公布时间 | 下载地址 |
---|---|---|---|---|---|
Janus-Pro-7B | 1.0 | 7B | - 文生图 SOTA:GenEval 准确率 80%(超 DALL-E 3 的 61%) - 多模态融合:支持图像描述、视觉问答与跨模态检索 | 2025-01-28 | Hugging Face |
JanusFlow | 1.0 | 未公开 | - 流程优化:扩展 Janus-Pro 的视频生成与编辑能力,支持动态场景连续推理 | 2025-01-28 | Hugging Face |
部署要求:
-
硬件:Janus-Pro-7B 可在 RTX 4090(24G 显存)运行,FP16 量化后显存占用低于 10G
-
框架:需搭配 Diffusers 库与 PyTorch 2.3+
四、生态整合与部署建议
-
云平台支持:
-
百度智能云、阿里云、华为云等均提供 DeepSeek-V3/R1 的一键部署,限时免费配额 1000 RPM613
-
腾讯云 HAI 支持 3 分钟启动 R1 模型,集成对象存储与开发工具链11
-
-
本地优化方案:
-
FP8 推理:利用 LMDeploy 压缩显存占用(V3 需 4×H800)1
-
动态蒸馏:企业可根据场景选择 R1-Distill 系列降低算力成本8
-
-
开源协议:
-
所有模型遵循 MIT 协议,允许商业用途与二次开发11
-
五、总结与展望
DeepSeek 在 14 个月内通过 V3、R1、Janus 三大系列模型,实现了从通用语言模型到垂直领域推理与多模态的技术闭环。其开源策略不仅推动国产模型生态繁荣(如百度、阿里、华为云全面接入613),更以 1/10 训练成本(对比 GPT-4)重塑行业效率标准7。开发者可通过 Hugging Face 快速获取模型权重,结合昇腾或英伟达硬件构建定制化 AI 服务。未来,DeepSeek 计划扩展多模态与深度思考功能,进一步缩小开源与闭源模型的差距。