当前位置: 首页 > article >正文

DeepSeek 开源模型全解析(2024.1.1–2025.2.6)

目录

一、通用大语言模型:DeepSeek-V3 系列 137

二、推理优化模型:DeepSeek-R1 系列 811

三、多模态模型:Janus 系列 10

四、生态整合与部署建议

五、总结与展望


以下为 DeepSeek 在 2024 年 1 月至 2025 年 2 月期间发布的开源模型及其核心信息,涵盖自然语言处理、多模态与推理优化三大领域:


一、通用大语言模型:DeepSeek-V3 系列 137
模型名称版本号参数规模特点公布时间下载地址
DeepSeek-V31.0总参数 671B,激活参数 37B架构创新:首款融合 FP8 混合精度训练、多头潜在注意力(MLA)与 MoE 架构的模型,显存消耗降低 30%
性能对标:在数学(MATH 评测 61.6 EM)、代码(HumanEval 65.2 Pass@1)等任务上超越 GPT-4o 与 Claude-3.5-Sonnet
效率提升:生成速度达 60 TPS(前代的 3 倍),支持 128K 长上下文
2024-12-26Hugging Face
DeepSeek-V3-Base1.0同 DeepSeek-V3- 提供原生 FP8 权重,支持 SGLang、LMDeploy 等推理框架
- 开源社区已适配 TensorRT-LLM 和 MindIE 的 BF16 推理优化
2024-12-26Hugging Face

部署要求

  • 硬件:推荐使用 4 台华为 Atlas 800I A2 服务器(每台配置 8×64G 显存)2

  • 软件:支持昇腾 MindIE 镜像(预置推理脚本)或 Hugging Face 本地部署工具链


二、推理优化模型:DeepSeek-R1 系列 811
模型名称版本号参数规模特点公布时间下载地址
DeepSeek-R11.0总参数 671B强化学习驱动:通过纯强化学习实现复杂推理能力,无需监督微调
性能对标:在 LiveCodeBench 等编程任务中超越 OpenAI o1,数学推理接近 Claude-3.5-Sonnet
思维链 API:输出包含推理过程(最长 32K tokens),支持企业级应用透明化决策
2025-01-23Hugging Face
DeepSeek-R1-Zero1.0总参数 671B纯 RL 训练:首个无需监督微调的推理模型,验证强化学习在复杂任务中的潜力
局限:输出存在重复与语言混杂问题,主要用于研究场景
2025-01-21Hugging Face
R1-Distill 系列1.015B–70B知识蒸馏:从 R1 蒸馏的小模型,32B 和 70B 版本性能对标 OpenAI-o1-mini
硬件友好:支持低显存设备部署
2025-01-23Hugging Face

部署要求

  • 硬件:R1 全量版需与 DeepSeek-V3 类似配置;蒸馏版 70B 可在单台 A100(80G)运行

  • API 集成:支持腾讯云 HAI、阿里云 PAI 等平台一键部署611


三、多模态模型:Janus 系列 10
模型名称版本号参数规模特点公布时间下载地址
Janus-Pro-7B1.07B文生图 SOTA:GenEval 准确率 80%(超 DALL-E 3 的 61%)
多模态融合:支持图像描述、视觉问答与跨模态检索
2025-01-28Hugging Face
JanusFlow1.0未公开流程优化:扩展 Janus-Pro 的视频生成与编辑能力,支持动态场景连续推理2025-01-28Hugging Face

部署要求

  • 硬件:Janus-Pro-7B 可在 RTX 4090(24G 显存)运行,FP16 量化后显存占用低于 10G

  • 框架:需搭配 Diffusers 库与 PyTorch 2.3+


四、生态整合与部署建议
  1. 云平台支持

    • 百度智能云、阿里云、华为云等均提供 DeepSeek-V3/R1 的一键部署,限时免费配额 1000 RPM613

    • 腾讯云 HAI 支持 3 分钟启动 R1 模型,集成对象存储与开发工具链11

  2. 本地优化方案

    • FP8 推理:利用 LMDeploy 压缩显存占用(V3 需 4×H800)1

    • 动态蒸馏:企业可根据场景选择 R1-Distill 系列降低算力成本8

  3. 开源协议

    • 所有模型遵循 MIT 协议,允许商业用途与二次开发11


五、总结与展望

DeepSeek 在 14 个月内通过 V3、R1、Janus 三大系列模型,实现了从通用语言模型到垂直领域推理与多模态的技术闭环。其开源策略不仅推动国产模型生态繁荣(如百度、阿里、华为云全面接入613),更以 1/10 训练成本(对比 GPT-4)重塑行业效率标准7。开发者可通过 Hugging Face 快速获取模型权重,结合昇腾或英伟达硬件构建定制化 AI 服务。未来,DeepSeek 计划扩展多模态与深度思考功能,进一步缩小开源与闭源模型的差距。


http://www.kler.cn/a/535872.html

相关文章:

  • 基于MODIS/Landsat/Sentinel/国产卫星遥感数据与DSSAT作物模型同化的作物产量估算
  • 20240824 美团 笔试
  • 114,【6】攻防世界 web wzsc_文件上传
  • Java 23新特性
  • 【redis】数据类型之string
  • PostgreSQL:字符串函数用法
  • 2025年2月6日(anaconda cuda 学习 基本命令)
  • 《ISO/SAE 21434-2021 道路汽车--网络安全工程》标准解读
  • 大模型的底层逻辑及Transformer架构
  • multisim入门学习设计电路
  • react18新增了哪些特性
  • ASP.NET Core中Filter与Middleware的区别
  • C++_数据结构_AVL树
  • mysql 数据导出到文件
  • Android 单例模式:实现可复用数据存储
  • java解析复杂json
  • maven不能导入依赖和插件Cannot resolve plugin org.apache.maven.plugins:maven-xxx
  • Linux网络配置(超详细)
  • 【声音转文字CapsWriter】声音随时转化为文字,CapsWriter提高工作效率
  • < 自用文儿 > Linux / Unix 的 VI 编辑器 快捷命令集 看到安装包叫 vim
  • Sentinel的安装和做限流的使用
  • PromptSource和LangChain哪个更好
  • Apex 基础
  • k8s常见面试题1
  • app专项测试(网络测试流程)
  • duoker安装