当前位置：首页 > article >正文

DeepSeek 开源模型全解析（2024.1.1–2025.2.6）

article 2025/2/8 2:46:06

一、通用大语言模型：DeepSeek-V3 系列 137

二、推理优化模型：DeepSeek-R1 系列 811

三、多模态模型：Janus 系列 10

四、生态整合与部署建议

五、总结与展望

以下为 DeepSeek 在 2024 年 1 月至 2025 年 2 月期间发布的开源模型及其核心信息，涵盖自然语言处理、多模态与推理优化三大领域：

一、通用大语言模型：DeepSeek-V3 系列 137

模型名称	版本号	参数规模	特点	公布时间	下载地址
DeepSeek-V3	1.0	总参数 671B，激活参数 37B	- 架构创新：首款融合 FP8 混合精度训练、多头潜在注意力（MLA）与 MoE 架构的模型，显存消耗降低 30% - 性能对标：在数学（MATH 评测 61.6 EM）、代码（HumanEval 65.2 Pass@1）等任务上超越 GPT-4o 与 Claude-3.5-Sonnet - 效率提升：生成速度达 60 TPS（前代的 3 倍），支持 128K 长上下文	2024-12-26	Hugging Face
DeepSeek-V3-Base	1.0	同 DeepSeek-V3	- 提供原生 FP8 权重，支持 SGLang、LMDeploy 等推理框架 - 开源社区已适配 TensorRT-LLM 和 MindIE 的 BF16 推理优化	2024-12-26	Hugging Face

部署要求：

硬件：推荐使用 4 台华为 Atlas 800I A2 服务器（每台配置 8×64G 显存）2
软件：支持昇腾 MindIE 镜像（预置推理脚本）或 Hugging Face 本地部署工具链

二、推理优化模型：DeepSeek-R1 系列 811

模型名称	版本号	参数规模	特点	公布时间	下载地址
DeepSeek-R1	1.0	总参数 671B	- 强化学习驱动：通过纯强化学习实现复杂推理能力，无需监督微调 - 性能对标：在 LiveCodeBench 等编程任务中超越 OpenAI o1，数学推理接近 Claude-3.5-Sonnet - 思维链 API：输出包含推理过程（最长 32K tokens），支持企业级应用透明化决策	2025-01-23	Hugging Face
DeepSeek-R1-Zero	1.0	总参数 671B	- 纯 RL 训练：首个无需监督微调的推理模型，验证强化学习在复杂任务中的潜力 - 局限：输出存在重复与语言混杂问题，主要用于研究场景	2025-01-21	Hugging Face
R1-Distill 系列	1.0	15B–70B	- 知识蒸馏：从 R1 蒸馏的小模型，32B 和 70B 版本性能对标 OpenAI-o1-mini - 硬件友好：支持低显存设备部署	2025-01-23	Hugging Face

部署要求：

硬件：R1 全量版需与 DeepSeek-V3 类似配置；蒸馏版 70B 可在单台 A100（80G）运行
API 集成：支持腾讯云 HAI、阿里云 PAI 等平台一键部署611

三、多模态模型：Janus 系列 10

模型名称	版本号	参数规模	特点	公布时间	下载地址
Janus-Pro-7B	1.0	7B	- 文生图 SOTA：GenEval 准确率 80%（超 DALL-E 3 的 61%） - 多模态融合：支持图像描述、视觉问答与跨模态检索	2025-01-28	Hugging Face
JanusFlow	1.0	未公开	- 流程优化：扩展 Janus-Pro 的视频生成与编辑能力，支持动态场景连续推理	2025-01-28	Hugging Face

部署要求：

硬件：Janus-Pro-7B 可在 RTX 4090（24G 显存）运行，FP16 量化后显存占用低于 10G
框架：需搭配 Diffusers 库与 PyTorch 2.3+

四、生态整合与部署建议

云平台支持：
- 百度智能云、阿里云、华为云等均提供 DeepSeek-V3/R1 的一键部署，限时免费配额 1000 RPM613
- 腾讯云 HAI 支持 3 分钟启动 R1 模型，集成对象存储与开发工具链11
本地优化方案：
- FP8 推理：利用 LMDeploy 压缩显存占用（V3 需 4×H800）1
- 动态蒸馏：企业可根据场景选择 R1-Distill 系列降低算力成本8
开源协议：
- 所有模型遵循 MIT 协议，允许商业用途与二次开发11

五、总结与展望

DeepSeek 在 14 个月内通过 V3、R1、Janus 三大系列模型，实现了从通用语言模型到垂直领域推理与多模态的技术闭环。其开源策略不仅推动国产模型生态繁荣（如百度、阿里、华为云全面接入613），更以 1/10 训练成本（对比 GPT-4）重塑行业效率标准7。开发者可通过 Hugging Face 快速获取模型权重，结合昇腾或英伟达硬件构建定制化 AI 服务。未来，DeepSeek 计划扩展多模态与深度思考功能，进一步缩小开源与闭源模型的差距。

查看全文

http://www.kler.cn/a/535872.html