当前位置: 首页 > article >正文

deepseek各个版本及论文

以下是 DeepSeek 系列模型的主要版本及其相关论文列表,每条记录均附上论文地址:


  1. DeepSeek LLM
    发布时间:2024 年 1 月 5 日

论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

主要内容:

基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本。

支持多步学习率调度器,提升训练效率。

在预训练和对齐(监督微调与 DPO)方面进行了创新。

论文地址:https://arxiv.org/abs/2401.0295420


  1. DeepSeekMoE
    发布时间:2024 年 1 月 11 日

论文标题:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

主要内容:

提出细粒度专家分割(Fine-Grained Expert Segmentation)和共享专家隔离(Shared Expert Isolation)策略。

通过更灵活的专家组合提升模型性能,同时保持计算成本不变。

论文地址:https://arxiv.org/abs/2401.060662


  1. DeepSeek-V2
    发布时间:2024 年 5 月

论文标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

主要内容:

引入多头潜在注意力(Multi-head Latent Attention, MLA)和 DeepSeekMoE 架构。

在推理效率和训练成本上进行了优化,为后续版本奠定了基础。

论文地址:https://arxiv.org/abs/2405.044343


  1. DeepSeek-V3
    发布时间:2024 年 12 月 27 日

论文标题:DeepSeek-V3 Technical Report

主要内容:

总参数量为 671B,每个 token 激活 37B 参数。

采用无辅助损失的负载均衡策略和多令牌预测(Multi-Token Prediction, MTP)训练目标。

支持 FP8 混合精度训练,显著降低训练成本。

论文地址:https://arxiv.org/abs/2412.1943714


  1. DeepSeek-R1
    发布时间:2025 年 1 月

论文标题:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

主要内容:

基于 DeepSeek-V3-Base,通过强化学习(RL)提升推理能力。

引入冷启动数据和多阶段训练流程,优化模型的可读性和性能。

论文地址:https://arxiv.org/abs/2501.129481


  1. DeepSeek-R1 蒸馏模型
    发布时间:2025 年 1 月

论文标题:Distilling Reasoning Capabilities from DeepSeek-R1 to Smaller Models

主要内容:

将 DeepSeek-R1 的推理能力蒸馏到更小的模型(如 Qwen 和 Llama 系列)。

蒸馏后的模型在多个基准测试中表现优异,显著超越同类开源模型。

论文地址:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf5


总结
DeepSeek 系列模型从最初的 LLM 版本到最新的 V3 和 R1 版本,逐步在架构设计、训练效率和推理能力上实现了突破。如果您需要更详细的内容,可以参考相关论文或访问 DeepSeek 的 GitHub 页面获取模型检查点和技术细节。


http://www.kler.cn/a/521337.html

相关文章:

  • WPS数据分析000007
  • ArcGIS安装动物家域分析插件HRT的方法
  • 为AI聊天工具添加一个知识系统 之72 详细设计之13 图灵机
  • Level DB --- TableBuilder
  • C 或 C++ 中用于表示常量的后缀:1ULL
  • C++从入门到实战(二)C++命名空间
  • 【信息系统项目管理师-选择真题】2016上半年综合知识答案和详解
  • 第三十一周学习周报
  • 计算机图形学试题整理(期末复习/闭or开卷/>100道试题/知识点)
  • 塔罗牌(基础):大阿卡那牌
  • 2025美赛数学建模C题:奥运金牌榜,完整论文代码模型目前已经更新
  • 用C++编写一个2048的小游戏
  • 【2024年华为OD机试】(A卷,100分)- 识图谱新词挖掘 (JavaScriptJava PythonC/C++)
  • python的设计模式
  • 【miniconda】:langraph的windows构建
  • windows蓝牙驱动开发-生成和发送蓝牙请求块 (BRB)
  • 10 外观(Facade)模式
  • 基于先验领域知识的归纳式多实例多标签学习用于牙周病分类| 文献速递 -医学影像人工智能进展
  • 【Django DRF Apps】【文件上传】【断点上传】从零搭建一个普通文件上传,断点续传的App应用
  • 游戏策划的分类