当前位置：首页 > article >正文

Deepseek v3 的笔记

article 2025/4/2 14:12:16

基本概述

Deepseek v3是Deepseek发布的旗舰模型，属于607B的混合专家（MoE）模型，其中活跃参数为37B。在当前的模型领域，它堪称最佳的开源模型，性能超越了Llama 3.1 405b、Qwen和Mistral等知名模型。根据基准测试结果，它与OpenAI的GPT - 4o以及Claude 3.5 Sonnet处于同一水平，并且在某些任务上的表现还要更胜一筹。

训练优势及突破

成本与效率：在训练方面取得了令人瞩目的成果，仅花费约600万美元，在英伟达h800s集群上使用278.8万个GPU小时，基于14.8万亿高质量数据完成了预训练。与之形成鲜明对比的是，Llama 403b的训练数据量是其11倍，消耗了3084万个GPU小时，并且同样基于约15万亿的token进行训练。

技术创新

模型架构：
- MoE架构：采用混合专家（MoE）架构，在处理每个token时，仅激活37B的参数，相较于传统的密集模型，这种稀疏激活方式极大地降低了计算需求。
- 多头潜在注意力（MLA）：运用此技术压缩了键值（Key - Value）缓存，不仅减少了内存使用量，还使得训练过程更加高效。
FP8混合精度训练：实现了FP8混合精度训练框架，与传统的FP16/FP32格式相比，内存占用最多可降低50%。同时，通过采用细粒度量化策略以及提高累加精度，在提升训练速度的同时有效保证了模型的准确性。
负载均衡策略：针对MoE架构，首创了无辅助损失的负载均衡策略，这种策略在不引入传统辅助损失方法弊端的前提下，有效提升了模型的性能。
训练框架：开发了自定义的HAI - LLM训练框架，该框架具备多项优化：
- 双管道算法：通过双管道算法实现了高效的流水线并行，减少了流水线中的气泡，实现了计算和通信的重叠，从而提高了训练效率。
- 高效通信内核：具备高效的跨节点全对全通信内核，能够充分利用网络带宽，加速数据传输。
- 内存优化：通过精心的内存优化措施，避免了使用成本高昂的张量并行，进一步降低了训练成本。

新增特性

Deepseek v3新增了深度思考（Deepthink）功能，融入了Deepseek R1系列模型的思维链（CoT）能力。具体做法是通过创新的知识蒸馏方法，将R1系列模型的推理能力迁移到Deepseek v3中，在这个过程中，巧妙地将R1的验证和反思模式融入其中，不仅显著提升了v3的推理性能，还能够对v3的输出风格和长度进行有效控制。用户可以在Deepseek聊天界面中启用该特性，尽管其效果不如o1，但对模型推理能力有一定程度的增强。

与其他模型的性能对比

作者围绕推理、数学、编码、创意写作四个关键领域，使用一系列基准问题对Deepseek v3、GPT - 4o和Claude 3.5 Sonnet进行了测试：

推理能力：
- “找第四个单词”问题：未启用Deepthink CoT时回答错误，启用后经过分析思考，正确找出了句子中的第四个单词，证明该特性有助于提升推理准确性。
- “数单词数量”问题：Deepseek v3回答错误，但GPT - 4o和Claude 3.5 Sonnet同样未能答对。
- “草莓单词中r的数量”问题：Deepseek v3正确回答，而GPT - 4o从未答对过该问题。
- “农夫与羊过河”问题：无论是否启用Deepthink CoT，Deepseek v3都未能得出正确答案，但整体来看，它在推理能力上仍优于GPT - 4o和Claude 3.5 Sonnet，虽不及o1，但表现也较为出色。
数学能力：
- 简单减法运算：对于“5.11 - 5.90”这类简单数学问题能够正确计算。
- 平行四边形顶点问题：在求平行四边形可能的第四个顶点问题上，Deepseek v3能够准确找出所有可能的顶点，而GPT - 4o和3.5 Sonnet只能找出一个。
- 整数求和问题：面对较复杂的整数相关数学问题，启用Deepthink特性后，Deepseek v3给出了正确答案，表明其数学能力强于GPT - 4o和Claude 3.5 Sonnet。
编码能力：使用LeetCode上较新的“Super Heroes”这一“Hard”难度的动态规划问题进行测试。Deepseek v3首次回答时完全失败，一个测试用例都未通过，但再次尝试时给出了完美解决方案，且性能表现优异。综合来看，其编码能力接近GPT - 4，但Claude 3.5 Sonnet在编码方面仍有微弱优势。
创意写作能力：Deepseek v3的输出在风格上与GPT - 4o极其相似，包括响应模式、段落结构以及用词等方面。例如在对同一段落进行优化时，两者输出近乎相同，推测可能是基于GPT - 4o生成的合成数据集进行训练。不过在创意写作方面，Claude 3.5 Sonnet因具有更人性化的观点和看法而略胜一筹。

最终评价与适用场景

最终评价：在推理和数学任务上，Deepseek v3表现最佳，依次领先于Claude 3.5 Sonnet和OpenAI GPT - 4o；在编码和创意写作任务中，Claude 3.5 Sonnet更具优势，Deepseek v3与GPT - 4o水平相近，Deepseek v3稍强一些。
适用场景：如果使用场景主要围绕GPT - 4o展开，那么可以放心切换到Deepseek v3；对于构建基于大语言模型（LLM）的应用来说，Deepseek v3因其卓越的性价比，是开发面向客户端AI应用的不二之选；此外，该模型权重开源，用户能够自行托管，这给予了用户对模型更多的控制权。

查看全文

http://www.kler.cn/a/466489.html