deepseekLLM发展历程
(一)DeepSeek LLM(2024 年 1 月 5 日发布)
这是 DeepSeek 发布的首个大模型,包含 670 亿参数,在 2 万亿 token 的数据集上训练而成,涵盖中英文。其原理基于 Transformer 架构,通过对大规模文本数据的学习,模型能够理解和生成自然语言。在训练过程中,采用了优化的算法,使得模型在语言理解和生成任务上表现出色。
1.1 模型架构
DeepSeek LLM 基于经典的 Transformer 架构,这是当前大多数大型语言模型的基石。Transformer 架构以其强大的并行计算能力和对长序列数据的良好处理能力而被广泛采用。DeepSeek LLM 在此基础上引入了分组查询注意力(GQA)机制,这是一种优化技术,旨在降低推理过程中的计算成本,同时保持模型性能。通过将查询向量分组处理,GQA 能够减少注意力机制的计算复杂度,从而在大规模数据处理时显著提升效率。
1.2 数据集规模
DeepSeek LLM 使用了规模庞大的双语数据集进行预训练,数据集包含 2 万亿字符。这一数据量远超同期许多其他模型所使用的数据集规模。如此大规模的数据集为模型提供了丰富的语言模式和知识,使其能够更好地理解和生成多种语言的文本。双语数据集的设计也意味着 DeepSeek LLM 在处理多语言任务时具有天然的优势,能够更有效地捕捉不同语言之间的共性和差异,提升模型在跨语言任务中的表现。
1.3 创新之处
多步学习率调度器:DeepSeek LLM 采用了多步学习率调度器来优化训练过程。与传统的单一学习率策略相比,多步学习率调度器能够根据训练的不同阶段动态调整学习率。在训练初期,较高的学习率有助于模型快速收敛;而在训练后期,逐渐降低学习率可以使模型更精细地调整参数,避免过拟合,从而提升模型的最终性能。这种灵活的学习率调整策略使得 DeepSeek LLM 在大规模数据训练中能够更高效地利用计算资源,缩短训练时间,同时保证模型的稳定性和准确性。
预训练和对齐创新:在预训练阶段,DeepSeek LLM 不仅采用了传统的自监督学习方法,还引入了创新的对齐技术。通过对齐技术,模型能够更好地理解人类语言的语义和逻辑结构,从而在生成文本时更符合人类的认知习惯。这种对齐创新使得 DeepSeek LLM 在处理复杂的自然语言处理任务时表现出色,能够生成更准确、更有逻辑性的文本内容,提升了模型在实际应用中的可用性和可靠性。
论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
论文地址:https://arxiv.org/pdf/2401.02954
代码地址:https://github.com/deepseek-ai/DeepSeek-LLM
(二)DeepSeek - V2(2024 年 5 月发布)
这是 DeepSeek 发布的首个大模型,包含 670 亿参数,在 2 万亿 token 的数据集上训练而成,涵盖中英文。其原理基于 Transformer 架构,通过对大规模文本数据的学习,模型能够理解和生成自然语言。在训练过程中,采用了优化的算法,使得模型在语言理解和生成任务上表现出色。
1.1 模型架构
DeepSeek LLM 基于经典的 Transformer 架构,这是当前大多数大型语言模型的基石。Transformer 架构以其强大的并行计算能力和对长序列数据的良好处理能力而被广泛采用。DeepSeek LLM 在此基础上引入了分组查询注意力(GQA)机制,这是一种优化技术,旨在降低推理过程中的计算成本,同时保持模型性能。通过将查询向量分组处理,GQA 能够减少注意力机制的计算复杂度,从而在大规模数据处理时显著提升效率。
1.2 数据集规模
DeepSeek LLM 使用了规模庞大的双语数据集进行预训练,数据集包含 2 万亿字符。这一数据量远超同期许多其他模型所使用的数据集规模。如此大规模的数据集为模型提供了丰富的语言模式和知识,使其能够更好地理解和生成多种语言的文本。双语数据集的设计也意味着 DeepSeek LLM 在处理多语言任务时具有天然的优势,能够更有效地捕捉不同语言之间的共性和差异,提升模型在跨语言任务中的表现。
1.3 创新之处
多步学习率调度器:DeepSeek LLM 采用了多步学习率调度器来优化训练过程。与传统的单一学习率策略相比,多步学习率调度器能够根据训练的不同阶段动态调整学习率。在训练初期,较高的学习率有助于模型快速收敛;而在训练后期,逐渐降低学习率可以使模型更精细地调整参数,避免过拟合,从而提升模型的最终性能。这种灵活的学习率调整策略使得 DeepSeek LLM 在大规模数据训练中能够更高效地利用计算资源,缩短训练时间,同时保证模型的稳定性和准确性。
预训练和对齐创新:在预训练阶段,DeepSeek LLM 不仅采用了传统的自监督学习方法,还引入了创新的对齐技术。通过对齐技术,模型能够更好地理解人类语言的语义和逻辑结构,从而在生成文本时更符合人类的认知习惯。这种对齐创新使得 DeepSeek LLM 在处理复杂的自然语言处理任务时表现出色,能够生成更准确、更有逻辑性的文本内容,提升了模型在实际应用中的可用性和可靠性。
论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
论文地址:https://arxiv.org/pdf/2401.02954
代码地址:https://github.com/deepseek-ai/DeepSeek-LLM
(二)DeepSeek - V2(2024 年 5 月发布)
第二代 MoE(混合专家模型)大模型,拥有 2360 亿参数。它的原理是将多个专家模型组合在一起,根据不同的任务和输入,动态地选择合适的专家进行处理。这种方式提高了模型的泛化能力和处理复杂任务的能力,在中文综合能力上表现十分出色,同时训练效率高。
2.1 模型架构
DeepSeek V2 是一个混合专家(Mixture-of-Experts, MoE)语言模型,其架构设计在多个方面进行了创新和优化。它引入了多头潜在注意力(Multi-Head Latent Attention, MLA)机制,这是其架构的核心亮点之一。MLA 通过将注意力机制中的键值(Key-Value, KV)对进行低秩联合压缩,显著减少了 KV 缓存的存储需求。具体来说,MLA 将 KV 缓存压缩为潜在向量,这些潜在向量能够高效地表示原始的 KV 对信息,从而在推理过程中大幅降低内存占用。这种优化不仅提高了推理效率,还使得模型能够在更大的上下文长度下运行,支持 128K tokens 的上下文长度,极大地提升了模型在处理长文本任务时的能力。
同时,DeepSeek V2 遵循 DeepSeek MoE 架构,继承了其细粒度专家分割和共享专家隔离的策略。这种架构设计使得模型在训练和推理过程中能够更高效地利用计算资源,进一步提升了模型的性能和经济性。通过这种架构的优化,DeepSeek V2 在处理复杂的自然语言处理任务时表现出色,能够以较低的计算成本实现高性能的推理。
2.2 数据集规模
DeepSeek V2 的预训练数据集规模达到了 8.1T 标记,这是一个由高质量多源语料库组成的庞大数据集。这个数据集不仅在规模上远超许多同期的模型,而且在数据的质量和多样性上也进行了精心设计。多源语料库涵盖了多种语言、领域和风格的文本数据,为模型提供了丰富的语言模式和知识。这种大规模且高质量的数据集使得 DeepSeek V2 能够在多种自然语言处理任务中表现出色,尤其是在需要广泛知识和复杂推理的任务中。
通过在如此大规模的数据集上进行预训练,DeepSeek V2 能够学习到更广泛的语言模式和知识,从而在多种任务中表现出色。例如,在处理复杂的多语言翻译任务时,模型能够更好地理解不同语言之间的共性和差异,从而提高翻译的准确性和流畅性。此外,大规模的数据集也为模型的深度学习提供了更充分的训练素材,使得模型能够在训练过程中更好地调整参数,提升性能。
2.3 创新之处
DeepSeek V2 在多个方面展现了显著的创新和优化,与 DeepSeek 67B 相比,其性能和效率都有了大幅提升。图片
训练成本优化:DeepSeek V2 通过 MLA 和 DeepSeek MoE 架构的优化,显著降低了训练成本。与 DeepSeek 67B 相比,DeepSeek V2 的训练成本节省了 42.5%。这种成本优化主要得益于 MLA 机制对 KV 缓存的高效压缩以及 DeepSeek MoE 架构对计算资源的高效利用。通过减少 KV 缓存的存储需求和优化专家组合,模型在训练过程中能够更高效地利用计算资源,从而降低了训练成本。
KV 缓存优化:MLA 机制的引入使得 DeepSeek V2 在 KV 缓存方面取得了显著的优化。与 DeepSeek 67B 相比,DeepSeek V2 的 KV 缓存减少了 93.3%。这种优化不仅降低了模型的内存占用,还提高了推理效率。在处理大规模数据时,KV 缓存的高效压缩使得模型能够更快地进行推理,从而提升了模型的性能。
生成吞吐量提升:DeepSeek V2 的最大生成吞吐量提升至 5.76 倍。这一提升主要得益于 MLA 机制对推理过程的优化以及 DeepSeek MoE 架构对计算资源的高效利用。通过减少 KV 缓存的存储需求和优化专家组合,模型在推理过程中能够更高效地处理数据,从而显著提升了生成吞吐量。这种提升使得 DeepSeek V2 在处理长文本生成任务时表现出色,能够更快地生成高质量的文本内容。
这些创新和优化使得 DeepSeek V2 在性能和效率方面都取得了显著的提升,成为当前开源模型中的佼佼者。
(三)DeepSeek - V3(2024 年 12 月 26 日上线并开源)
6710 亿参数的专家混合模型,是 DeepSeek 在大规模模型研发上的重要成果。训练使用了 14.8 万亿 token 的数据集,采用了多头部潜在注意力 Transformer 和 256 个路由专家及 1 个共享专家的架构,每个 token 可激活 370 亿参数 。这种架构设计使得模型在处理复杂任务时,能够充分利用不同专家的优势,提升模型的整体性能。
3.1 模型架构
DeepSeek V3 采用了先进的 MLA(多头潜在注意力)和 DeepSeek MoE 架构。MLA 机制通过低秩联合压缩注意力键值对,仅缓存关键向量,大幅削减 KV 缓存开销,同时降低训练激活值内存占用,优化资源利用。DeepSeek MoE 架构则通过细粒度专家分配机制与共享专家设置,依据 token 输入精准调配专家资源,提升模型训练效率与性能表现。
此外,DeepSeek V3 开创性地引入了无辅助损失的负载均衡策略,摒弃传统辅助损失依赖路径,为每个专家引入动态偏置项,依据实时负载监测动态调整,确保训练步骤中专家负载均衡。同时,序列级辅助损失补充机制严密防控单个序列内负载偏差,提升模型训练稳定性与性能。多 token 预测(MTP)机制是 DeepSeek V3 的一大亮点,将预测范畴拓展至每个位置的多个后续 token,采用顺序预测维持因果链,在训练时借助特定模块与损失计算强化模型对多 token 信息的捕捉与学习能力,推理阶段虽可独立运行,但 MTP 用于推测解码可显著加速生成进程,全面提升数据利用效率和预测精准度。
3.2 数据集规模
DeepSeek V3 在 14.8 万亿高质量且多样化的 token 上进行了预训练,这一庞大的数据集为模型提供了丰富的语言模式和知识。高质量的数据集不仅在规模上远超许多同期的模型,而且在数据的质量和多样性上也进行了精心设计,涵盖了多种语言、领域和风格的文本数据。这种大规模且高质量的数据集使得 DeepSeek V3 能够在多种自然语言处理任务中表现出色,尤其是在需要广泛知识和复杂推理的任务中。
3.3 创新之处
DeepSeek V3 在多个方面展现了显著的创新和优化,使其在性能、训练成本和稳定性方面都取得了显著的提升。
FP8 训练的有效性:DeepSeek V3 验证了 FP8 混合精度训练的有效性。针对 FP8 格式动态范围局限,采用元素条状和块状分组的细粒度量化策略,结合高精度累积技术,有效缓解量化误差,提升训练精度。在与相近规模模型的对比验证中,FP8 训练的相对损失误差控制在极小范围,有力证明其可行性。在框架内,核心计算以 FP8 执行提升速度,关键模块保留高精度保障稳定,同时优化器状态、激活值存储与通信的低精度处理,全方位降低内存与通信开销,实现训练效率与精度的精妙平衡。
训练成本低:DeepSeek V3 的完整训练仅需 278.8 万 H800 GPU 小时,训练成本相对较低。这种低成本训练主要得益于 MLA 和 DeepSeek MoE 架构的优化,以及 FP8 训练技术的应用。通过减少 KV 缓存的存储需求、优化专家组合和降低计算资源的消耗,模型在训练过程中能够更高效地利用计算资源,从而降低了训练成本。
稳定性好:DeepSeek V3 的训练过程非常稳定,整个训练过程中没有出现任何不可恢复的损失峰值,也未进行过回滚操作。这种稳定性主要得益于无辅助损失的负载均衡策略和多 token 预测机制,这些创新策略确保了模型在大规模训练中的稳定性和高效性。
性能卓越:DeepSeek V3 在多个基准测试中超越了其他开源模型,并达到了与领先闭源模型相当的水平。例如,在数学和代码任务的关键领域,DeepSeek V3 表现卓越,其在 MATH-500 测试中的数学推理表现和 LiveCodeBench 编程竞赛中的成绩均名列前茅,荣膺最强开源基座模型。在指令调优模型对比中,DeepSeek V3 在英语、代码与数学、中文能力及开放式评估中与顶尖闭源模型如 GPT-4o 和 Claude-3.5-Sonnet 激烈交锋不落下风,彰显其广泛适用性与强大竞争力。
(四)DeepSeek - R1(2025 年 1 月 20 日正式发布)
图片
在数学、代码、自然语言推理等任务上性能与 OpenAI o1 正式版相当。模型在架构和训练算法上进行了优化,结合了先进的深度学习技术,使其在多种任务中都能稳定发挥,在激烈的市场竞争中脱颖而出。
4.1 模型架构
DeepSeek R1 基于 DeepSeek V3 架构,这是一个拥有 671B 参数的混合专家模型(Mixture-of-Experts, MoE)。该架构包含 16 个专家网络,每个专家专注于数学、代码、逻辑等不同领域,通过动态激活机制,每个 token 激活 37B 参数,从而实现高效的推理能力。DeepSeek R1 的核心创新在于其训练方式,它完全依赖强化学习(Reinforcement Learning, RL)来提升模型的推理能力,而不使用任何监督微调(Supervised Fine-Tuning, SFT)数据。这种训练方式使得模型能够自主发现推理模式,而不是依赖人工策划的示例。此外,DeepSeek R1 引入了冷启动数据和多阶段训练流程,通过精选的高质量长思维链(Chain-of-Thought, CoT)数据对模型进行初始微调,为后续的强化学习训练奠定基础。这种多阶段训练流程不仅提升了模型的推理能力,还显著改善了模型输出的可读性和语言一致性。
4.2 数据集规模
DeepSeek R1 的预训练数据集规模达到了 4.8T token,涵盖了 52 种语言和技术领域,包括 STEM 论文、GitHub 代码库等。如此大规模且多样化的数据集为模型提供了丰富的知识背景,使其能够更好地理解和生成多种语言和技术领域的文本。这种数据集的设计不仅提升了模型在多语言任务中的表现,还增强了模型在处理复杂技术问题时的能力。例如,在处理复杂的编程任务时,模型能够利用从 GitHub 代码库中学到的知识,生成更准确、更高效的代码解决方案。
4.3 创新之处
DeepSeek R1 的创新之处主要体现在以下几个方面:
纯强化学习训练:DeepSeek R1 是首个完全依赖强化学习训练的推理模型,这种方式使得模型能够自主发现推理模式,而不是依赖人工策划的示例。通过强化学习,DeepSeek R1 在多个推理任务中表现出色,其推理能力甚至与 OpenAI 的 o1-1217 相当。例如,在 AIME 2024 测试中,DeepSeek R1 的单样本通过率(pass@1)达到了 79.8%,而 OpenAI-o1-1217 的成绩为 85%,这表明 DeepSeek R1 在数学推理任务中已经接近人类专家的水平。
解决可读性和语言混用问题:与 DeepSeek R1-Zero 相比,DeepSeek R1 通过引入冷启动数据和多阶段训练流程,显著改善了模型输出的可读性和语言一致性。冷启动数据为模型提供了高质量的推理模板,使得模型在训练初期就能够生成结构化且可解释的推理过程。此外,多阶段训练流程中的语言一致性奖励进一步优化了模型的输出质量,使其更符合人类的阅读习惯。
推理任务表现卓越:DeepSeek R1 在多个推理任务中表现出色,不仅在数学推理任务中取得了优异的成绩,还在编码和软件工程任务中展现了强大的能力。例如,在 LiveCodeBench 编程竞赛中,DeepSeek R1 的 pass@1 成绩达到了 65.9%,远高于 GPT-4o 的 32.9%。此外,DeepSeek R1 还能够自动生成测试用例以验证代码补丁,并将解决方案从一种编程语言移植到另一种语言,这表明其在编程任务中的推理能力和泛化能力非常强。
模型蒸馏技术:DeepSeek R1 的推理能力还可以通过模型蒸馏技术迁移到更小的模型中,从而实现经济高效的部署。例如,经过蒸馏的 7B 模型在 AIME 2024 测试中实现了 55.5% 的 pass@1 成绩,以极低的成本超越了 GPT-4o。这种蒸馏技术不仅降低了模型的部署成本,还使得更小的模型能够具备强大的推理能力,为实际应用提供了更多的选择。
DeepSeek 系列模型从 2023 年 11 月首次发布以来,经历了从 DeepSeek LLM 到 DeepSeek R1 的多个重要发展阶段,每一代模型都在架构设计、训练算法、推理效率和模型表现上实现了显著的创新与优化,推动了开源大语言模型的快速发展。
第二代 MoE(混合专家模型)大模型,拥有 2360 亿参数。它的原理是将多个专家模型组合在一起,根据不同的任务和输入,动态地选择合适的专家进行处理。这种方式提高了模型的泛化能力和处理复杂任务的能力,在中文综合能力上表现十分出色,同时训练效率高。
2.1 模型架构
DeepSeek V2 是一个混合专家(Mixture-of-Experts, MoE)语言模型,其架构设计在多个方面进行了创新和优化。它引入了多头潜在注意力(Multi-Head Latent Attention, MLA)机制,这是其架构的核心亮点之一。MLA 通过将注意力机制中的键值(Key-Value, KV)对进行低秩联合压缩,显著减少了 KV 缓存的存储需求。具体来说,MLA 将 KV 缓存压缩为潜在向量,这些潜在向量能够高效地表示原始的 KV 对信息,从而在推理过程中大幅降低内存占用。这种优化不仅提高了推理效率,还使得模型能够在更大的上下文长度下运行,支持 128K tokens 的上下文长度,极大地提升了模型在处理长文本任务时的能力。
同时,DeepSeek V2 遵循 DeepSeek MoE 架构,继承了其细粒度专家分割和共享专家隔离的策略。这种架构设计使得模型在训练和推理过程中能够更高效地利用计算资源,进一步提升了模型的性能和经济性。通过这种架构的优化,DeepSeek V2 在处理复杂的自然语言处理任务时表现出色,能够以较低的计算成本实现高性能的推理。
2.2 数据集规模
DeepSeek V2 的预训练数据集规模达到了 8.1T 标记,这是一个由高质量多源语料库组成的庞大数据集。这个数据集不仅在规模上远超许多同期的模型,而且在数据的质量和多样性上也进行了精心设计。多源语料库涵盖了多种语言、领域和风格的文本数据,为模型提供了丰富的语言模式和知识。这种大规模且高质量的数据集使得 DeepSeek V2 能够在多种自然语言处理任务中表现出色,尤其是在需要广泛知识和复杂推理的任务中。
通过在如此大规模的数据集上进行预训练,DeepSeek V2 能够学习到更广泛的语言模式和知识,从而在多种任务中表现出色。例如,在处理复杂的多语言翻译任务时,模型能够更好地理解不同语言之间的共性和差异,从而提高翻译的准确性和流畅性。此外,大规模的数据集也为模型的深度学习提供了更充分的训练素材,使得模型能够在训练过程中更好地调整参数,提升性能。
2.3 创新之处
DeepSeek V2 在多个方面展现了显著的创新和优化,与 DeepSeek 67B 相比,其性能和效率都有了大幅提升。图片
训练成本优化:DeepSeek V2 通过 MLA 和 DeepSeek MoE 架构的优化,显著降低了训练成本。与 DeepSeek 67B 相比,DeepSeek V2 的训练成本节省了 42.5%。这种成本优化主要得益于 MLA 机制对 KV 缓存的高效压缩以及 DeepSeek MoE 架构对计算资源的高效利用。通过减少 KV 缓存的存储需求和优化专家组合,模型在训练过程中能够更高效地利用计算资源,从而降低了训练成本。
KV 缓存优化:MLA 机制的引入使得 DeepSeek V2 在 KV 缓存方面取得了显著的优化。与 DeepSeek 67B 相比,DeepSeek V2 的 KV 缓存减少了 93.3%。这种优化不仅降低了模型的内存占用,还提高了推理效率。在处理大规模数据时,KV 缓存的高效压缩使得模型能够更快地进行推理,从而提升了模型的性能。
生成吞吐量提升:DeepSeek V2 的最大生成吞吐量提升至 5.76 倍。这一提升主要得益于 MLA 机制对推理过程的优化以及 DeepSeek MoE 架构对计算资源的高效利用。通过减少 KV 缓存的存储需求和优化专家组合,模型在推理过程中能够更高效地处理数据,从而显著提升了生成吞吐量。这种提升使得 DeepSeek V2 在处理长文本生成任务时表现出色,能够更快地生成高质量的文本内容。
这些创新和优化使得 DeepSeek V2 在性能和效率方面都取得了显著的提升,成为当前开源模型中的佼佼者。
(三)DeepSeek - V3(2024 年 12 月 26 日上线并开源)
6710 亿参数的专家混合模型,是 DeepSeek 在大规模模型研发上的重要成果。训练使用了 14.8 万亿 token 的数据集,采用了多头部潜在注意力 Transformer 和 256 个路由专家及 1 个共享专家的架构,每个 token 可激活 370 亿参数 。这种架构设计使得模型在处理复杂任务时,能够充分利用不同专家的优势,提升模型的整体性能。
3.1 模型架构
图片
DeepSeek V3 采用了先进的 MLA(多头潜在注意力)和 DeepSeek MoE 架构。MLA 机制通过低秩联合压缩注意力键值对,仅缓存关键向量,大幅削减 KV 缓存开销,同时降低训练激活值内存占用,优化资源利用。DeepSeek MoE 架构则通过细粒度专家分配机制与共享专家设置,依据 token 输入精准调配专家资源,提升模型训练效率与性能表现。
此外,DeepSeek V3 开创性地引入了无辅助损失的负载均衡策略,摒弃传统辅助损失依赖路径,为每个专家引入动态偏置项,依据实时负载监测动态调整,确保训练步骤中专家负载均衡。同时,序列级辅助损失补充机制严密防控单个序列内负载偏差,提升模型训练稳定性与性能。多 token 预测(MTP)机制是 DeepSeek V3 的一大亮点,将预测范畴拓展至每个位置的多个后续 token,采用顺序预测维持因果链,在训练时借助特定模块与损失计算强化模型对多 token 信息的捕捉与学习能力,推理阶段虽可独立运行,但 MTP 用于推测解码可显著加速生成进程,全面提升数据利用效率和预测精准度。
3.2 数据集规模
DeepSeek V3 在 14.8 万亿高质量且多样化的 token 上进行了预训练,这一庞大的数据集为模型提供了丰富的语言模式和知识。高质量的数据集不仅在规模上远超许多同期的模型,而且在数据的质量和多样性上也进行了精心设计,涵盖了多种语言、领域和风格的文本数据。这种大规模且高质量的数据集使得 DeepSeek V3 能够在多种自然语言处理任务中表现出色,尤其是在需要广泛知识和复杂推理的任务中。
3.3 创新之处
DeepSeek V3 在多个方面展现了显著的创新和优化,使其在性能、训练成本和稳定性方面都取得了显著的提升。
FP8 训练的有效性:DeepSeek V3 验证了 FP8 混合精度训练的有效性。针对 FP8 格式动态范围局限,采用元素条状和块状分组的细粒度量化策略,结合高精度累积技术,有效缓解量化误差,提升训练精度。在与相近规模模型的对比验证中,FP8 训练的相对损失误差控制在极小范围,有力证明其可行性。在框架内,核心计算以 FP8 执行提升速度,关键模块保留高精度保障稳定,同时优化器状态、激活值存储与通信的低精度处理,全方位降低内存与通信开销,实现训练效率与精度的精妙平衡。
训练成本低:DeepSeek V3 的完整训练仅需 278.8 万 H800 GPU 小时,训练成本相对较低。这种低成本训练主要得益于 MLA 和 DeepSeek MoE 架构的优化,以及 FP8 训练技术的应用。通过减少 KV 缓存的存储需求、优化专家组合和降低计算资源的消耗,模型在训练过程中能够更高效地利用计算资源,从而降低了训练成本。
稳定性好:DeepSeek V3 的训练过程非常稳定,整个训练过程中没有出现任何不可恢复的损失峰值,也未进行过回滚操作。这种稳定性主要得益于无辅助损失的负载均衡策略和多 token 预测机制,这些创新策略确保了模型在大规模训练中的稳定性和高效性。
性能卓越:DeepSeek V3 在多个基准测试中超越了其他开源模型,并达到了与领先闭源模型相当的水平。例如,在数学和代码任务的关键领域,DeepSeek V3 表现卓越,其在 MATH-500 测试中的数学推理表现和 LiveCodeBench 编程竞赛中的成绩均名列前茅,荣膺最强开源基座模型。在指令调优模型对比中,DeepSeek V3 在英语、代码与数学、中文能力及开放式评估中与顶尖闭源模型如 GPT-4o 和 Claude-3.5-Sonnet 激烈交锋不落下风,彰显其广泛适用性与强大竞争力。
(四)DeepSeek - R1(2025 年 1 月 20 日正式发布)
图片
在数学、代码、自然语言推理等任务上性能与 OpenAI o1 正式版相当。模型在架构和训练算法上进行了优化,结合了先进的深度学习技术,使其在多种任务中都能稳定发挥,在激烈的市场竞争中脱颖而出。
4.1 模型架构
DeepSeek R1 基于 DeepSeek V3 架构,这是一个拥有 671B 参数的混合专家模型(Mixture-of-Experts, MoE)。该架构包含 16 个专家网络,每个专家专注于数学、代码、逻辑等不同领域,通过动态激活机制,每个 token 激活 37B 参数,从而实现高效的推理能力。DeepSeek R1 的核心创新在于其训练方式,它完全依赖强化学习(Reinforcement Learning, RL)来提升模型的推理能力,而不使用任何监督微调(Supervised Fine-Tuning, SFT)数据。这种训练方式使得模型能够自主发现推理模式,而不是依赖人工策划的示例。此外,DeepSeek R1 引入了冷启动数据和多阶段训练流程,通过精选的高质量长思维链(Chain-of-Thought, CoT)数据对模型进行初始微调,为后续的强化学习训练奠定基础。这种多阶段训练流程不仅提升了模型的推理能力,还显著改善了模型输出的可读性和语言一致性。
4.2 数据集规模
DeepSeek R1 的预训练数据集规模达到了 4.8T token,涵盖了 52 种语言和技术领域,包括 STEM 论文、GitHub 代码库等。如此大规模且多样化的数据集为模型提供了丰富的知识背景,使其能够更好地理解和生成多种语言和技术领域的文本。这种数据集的设计不仅提升了模型在多语言任务中的表现,还增强了模型在处理复杂技术问题时的能力。例如,在处理复杂的编程任务时,模型能够利用从 GitHub 代码库中学到的知识,生成更准确、更高效的代码解决方案。
4.3 创新之处
DeepSeek R1 的创新之处主要体现在以下几个方面:
纯强化学习训练:DeepSeek R1 是首个完全依赖强化学习训练的推理模型,这种方式使得模型能够自主发现推理模式,而不是依赖人工策划的示例。通过强化学习,DeepSeek R1 在多个推理任务中表现出色,其推理能力甚至与 OpenAI 的 o1-1217 相当。例如,在 AIME 2024 测试中,DeepSeek R1 的单样本通过率(pass@1)达到了 79.8%,而 OpenAI-o1-1217 的成绩为 85%,这表明 DeepSeek R1 在数学推理任务中已经接近人类专家的水平。
解决可读性和语言混用问题:与 DeepSeek R1-Zero 相比,DeepSeek R1 通过引入冷启动数据和多阶段训练流程,显著改善了模型输出的可读性和语言一致性。冷启动数据为模型提供了高质量的推理模板,使得模型在训练初期就能够生成结构化且可解释的推理过程。此外,多阶段训练流程中的语言一致性奖励进一步优化了模型的输出质量,使其更符合人类的阅读习惯。
推理任务表现卓越:DeepSeek R1 在多个推理任务中表现出色,不仅在数学推理任务中取得了优异的成绩,还在编码和软件工程任务中展现了强大的能力。例如,在 LiveCodeBench 编程竞赛中,DeepSeek R1 的 pass@1 成绩达到了 65.9%,远高于 GPT-4o 的 32.9%。此外,DeepSeek R1 还能够自动生成测试用例以验证代码补丁,并将解决方案从一种编程语言移植到另一种语言,这表明其在编程任务中的推理能力和泛化能力非常强。
模型蒸馏技术:DeepSeek R1 的推理能力还可以通过模型蒸馏技术迁移到更小的模型中,从而实现经济高效的部署。例如,经过蒸馏的 7B 模型在 AIME 2024 测试中实现了 55.5% 的 pass@1 成绩,以极低的成本超越了 GPT-4o。这种蒸馏技术不仅降低了模型的部署成本,还使得更小的模型能够具备强大的推理能力,为实际应用提供了更多的选择。
DeepSeek 系列模型从 2023 年 11 月首次发布以来,经历了从 DeepSeek LLM 到 DeepSeek R1 的多个重要发展阶段,每一代模型都在架构设计、训练算法、推理效率和模型表现上实现了显著的创新与优化,推动了开源大语言模型的快速发展。