DeepSeek训练成本与技术揭秘
引言:在当今人工智能蓬勃发展的时代,DeepSeek 宛如一颗耀眼的新星,突然闯入大众视野,引发了全球范围内的热烈讨论。从其惊人的低成本训练模式,到高性能的模型表现,无一不让业界为之侧目。它打破了传统认知,让人们重新审视 AI 研发的成本与效率。然而,这背后的真相究竟如何?真实的训练成本到底几何?闭源模型的利润又受到怎样的冲击?H100 的价格飙升与它有何关联?补贴推理定价又隐藏着哪些秘密?出口管制对其又会产生怎样的影响?还有多头潜在注意力(MLA)技术究竟有着怎样的神奇之处?让我们一同深入这场 DeepSeek 引发的行业大辩论,探寻其中的奥秘 。
DeepSeek 在短时间内迅速成为全球关注的焦点。尽管该公司并不是新成立的,但近期它获得了前所未有的关注和讨论热度,甚至超过了其他知名的人工智能产品如Claude、Perplexity和Gemini。
对于密切关注这一领域的人来说,DeepSeek 的崛起并不令人意外。几个月以来,行业内一直在讨论 DeepSeek 的潜力与成就。然而,随着公众的关注度激增,这种狂热的关注程度似乎并不完全反映现实情况。作者认为,最近关于 DeepSeek 的讨论转向了其算法改进的速度,以及这是否对 Nvidia 和 GPU 市场造成了负面影响。
最新观点是,DeepSeek 的效率如此之高,以至于不再需要更多的计算资源,这导致了现有计算能力的过剩。尽管 Jevons 悖论(即技术进步虽然提高了效率,但总体上却增加了资源消耗)也被过度炒作,但在现实中,模型的进步确实已经影响到了 H100 和 H200 等硬件的价格。
DeepSeek 的迅猛发展不仅改变了人们对人工智能效率的看法,也对现有的硬件市场产生了实际的影响。
DeepSeek与High-Flyer的关系
High-Flyer是一家中国的对冲基金,早在AI技术被广泛应用于金融领域之外之前,他们就已经认识到AI的潜力,并且特别关注到了扩展性(scaling)的重要性。因此,High-Flyer一直在增加其GPU供应,以支持更大规模的AI模型训练。
2021年,在任何出口限制措施实施之前,High-Flyer就果断投资购买了10,000个A100 GPU,用于大规模模型训练实验。这项战略决策后来被证明是非常成功的,为公司带来了显著的竞争优势。
随着High-Flyer在AI能力上的持续进步,他们决定于2023年5月剥离出一个独立实体——DeepSeek。DeepSeek的目标是专注于进一步发展AI技术。由于当时外界投资者对AI的兴趣有限,尤其是考虑到缺乏明确的商业模式,DeepSeek主要由High-Flyer自我资助。
如今,DeepSeek已经发展成为一个严肃、有组织的努力方向,远远超出了媒体所称的“副项目”。High-Flyer和DeepSeek之间经常共享资源,包括人力和技术计算资源。据估计,仅在GPU投资方面,DeepSeek的投资额已经超过5亿美元,即使考虑到了出口控制的影响。
DeepSeek从一个内部项目的起源到成长为一个独立且重要的AI研发公司的历程。它强调了早期对AI技术和硬件基础设施的战略投资如何奠定了成功的基础,并指出了资源共享对于保持竞争力的重要性。DeepSeek的发展故事也反映了AI技术领域内,早期识别趋势并采取行动的重要性。
DeepSeek的GPU资源分布
DeepSeek拥有大约50,000个Hopper架构的GPU,其中包括10,000个H800和10,000个H100型号。此外,他们还订购了大量的H20型号GPU,这些GPU专为中国市场设计。尽管H800与H100具有相同的计算能力,但其网络带宽较低。H20是当前唯一对中国模型提供商可用的型号。这些GPU不仅用于DeepSeek,也服务于High-Flyer,地理上分散部署,支持交易、推理、训练和研究等多种任务。
DeepSeek在服务器上的总资本支出约为16亿美元,其中约9.44亿美元用于集群的运营成本。与其他AI实验室和超大规模企业类似,DeepSeek面临的挑战之一是如何有效集中资源进行特定任务的训练。
DeepSeek专注于从中国顶尖大学如北京大学和浙江大学招募人才,强调能力和好奇心而非过往资历。公司提供高度灵活的工作环境,并以访问大量GPU资源为吸引点。为优秀候选人提供的年薪超过130万美元,远高于其他大型中国科技公司和AI实验室的标准。目前DeepSeek有约150名员工,但正在快速扩展。Deepseek核心创始团队成员的学历高校与技术背景如下:
成员 | 学历高校 | 技术背景 |
梁文锋 | 浙江大学电子信息工程专业本科、信息与通信工程硕士 | 2013年与同学创立杭州雅克比投资管理有限公司,2015年成立杭州幻方科技有限公司,2016年幻方量化推出首个基于深度学习的交易模型,2023年创办DeepSeek,有丰富的量化投资和AI领域经验 |
罗福莉 | 北京大学计算语言学硕士 | 曾在阿里巴巴达摩院从事预训练语言模型相关工作,2022年加入幻方量化,参与DeepSeek大模型的关键研发 |
高华佐 | 北京大学物理学院(本科,保送至) | 2012年获第29届全国中学生物理竞赛一等奖,在Transformer架构基础上,用新的MLA替代传统多头注意力机制等,推动DeepSeek架构创新 |
曾旺丁 | 北京邮电大学人工智能学院硕士 | 主要学习人工智能方向,参与DeepSeek-V2创新,在Transformer架构创新等方面有贡献 |
邵智宏 | 清华大学交互式人工智能(CoAI)课题组博士生 | 曾服务于微软研究院,主要研究自然语言处理、深度学习,参与DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder -v2等项目研发 |
朱琪豪 | 北京大学计算机学院博士 | 专注于深度代码学习研究,发表CCF -A类论文16篇,获软件工程领域顶级会议杰出论文奖,主导开发DeepSeek大模型关键项目 |
代达劢 | 北京大学 | 参与DeepSeek大模型从V1到V3每一代的研发 |
赵成钢 | 清华大学 | 曾在英伟达公司实习,衡水中学时获全国青少年信息学奥林匹克竞赛银牌,大学期间三次获得世界大学生超算竞赛冠军,负责DeepSeek大模型训练及推理基础架构 |
吴俣 | 北京航空航天大学计算机学院博士 | 曾在微软亚洲研究院工作,参与小冰和必应百科项目,是DeepSeek后训练团队的负责人 |
作为一家自筹资金的小型创业公司,DeepSeek能够迅速行动并实施新想法,避免了大公司的官僚障碍。类似于谷歌,DeepSeek运行自己的数据中心,这为其提供了进一步实验的空间,促进了全栈创新。DeepSeek被认为是当前最好的“开放权重”实验室之一,超越了Meta的Llama项目和其他竞争对手如Mistral。
DeepSeek凭借其丰富的GPU资源、高额的资金投入、独特的招聘策略以及灵活高效的组织文化,在AI领域尤其是开放权重研究方面占据了领先地位。其成功展示了小而精且高度聚焦的初创公司在推动技术创新方面的巨大潜力。
DeepSeek的训练成本及其性能
最近引起轰动的一个头条新闻提到,DeepSeek V3的训练成本为“600万美元”。然而,这个数字仅指的是预训练阶段的GPU成本,并不能代表整个模型开发和训练的全部成本。
据报道,DeepSeek在硬件上的总支出已经超过5亿美元,这还不包括研发费用和其他重要开支。新架构创新的研发过程中,测试新想法、新架构以及进行消融实验都需要大量的资金投入。例如,DeepSeek的关键创新之一——多头潜在注意力(Multi-Head Latent Attention),花费了几个月的时间开发,涉及了大量的人力和GPU资源。
完整的成本结构:
-
预训练成本:仅为整个模型成本的一部分,具体指用于预训练阶段的GPU成本。
-
研发成本:包括探索新架构、验证新想法等所需的实验成本。
-
硬件总拥有成本(TCO):包括硬件的购买、维护和运营成本。
-
其他成本:如数据收集与清理、员工薪酬等。
对比其他模型:
-
以Claude 3.5 Sonnet为例,其训练成本高达数千万美元。如果Anthropic只需支付这些费用,他们就不会从谷歌和亚马逊筹集数十亿美元的资金。这是因为除了训练本身,还需要进行大量的实验、架构设计、数据处理等工作。
DeepSeek能够拥有如此大规模的计算集群,关键在于出口管制的滞后。尽管目前对中国的某些高性能GPU实施了出口限制,但DeepSeek早在这些限制生效之前就已经积累了大量的A100 GPU。此外,他们还订购了大量的H20型号GPU,这是专门为满足中国市场的需求而生产的。
V3模型的性能对比
-
V3无疑是一个令人印象深刻的模型,但其“令人印象深刻”的定义需要具体化。许多人将V3与GPT-4o进行比较,并指出V3在性能上超越了GPT-4o。虽然这是事实,但需要注意的是,GPT-4o发布于2024年5月,而在AI领域,这段时间已经带来了显著的算法进步。
-
随着时间的推移,使用较少的计算资源实现相同或更强的能力是正常的。例如,现在可以在笔记本电脑上运行的小型模型可以达到与GPT-3相当的性能,而GPT-3最初需要超级计算机来训练和多个GPU来进行推理。这种现象表明,算法改进使得相同的计算能力可以在更小的计算资源上实现。
计算成本的下降:
-
AI实验室通常会在绝对美元支出上投入更多,以获得更高的智能水平。估计每年算法进步的速度为4倍,意味着每过一年,实现相同能力所需的计算资源减少4倍。Anthropic的CEO Dario甚至认为,算法进展可能更快,能达到10倍的改进。
-
对于GPT-3质量的推理成本,已经下降了1200倍。对于GPT-4的成本调查也显示了类似的下降趋势,尽管这一趋势在早期阶段更为明显。
-
算法改进和优化不仅降低了成本,还提高了能力。例如,在某些情况下,可以看到成本降低了10倍,同时能力提升了10倍。
DeepSeek的独特之处
-
DeepSeek的独特之处在于它首先达到了这种成本和能力的水平,并且率先发布了开放权重(open weights)。虽然Mistral和Llama等之前的模型也曾这样做,但DeepSeek在这方面仍然是先驱者。
-
到今年年底,如果成本再降低5倍也不足为奇。这反映了算法改进的速度以及DeepSeek在这一领域的持续领先地位。
R1与o1的性能关系
R1能够取得与o1相当的结果,尤其是在推理性能方面。比如在化学、数学和编码等任务上,R1能与o1比肩。R1在推理性能上虽与o1匹配,但在其他指标上并非总是领先,甚至在不少情况下表现不如o1。R1论文中未提及所有基准测试结果,尤其是那些它不占优势的测试,这使得直接比较R1和o1具有一定的难度。
当前的新范式聚焦于通过合成数据生成和在现有模型上进行后训练强化学习来提升推理能力。与依赖预训练的旧范式相比,新范式迭代速度更快、成本更低,进入门槛也更低,更容易优化。这使得DeepSeek能以较低成本更快地复制o1的方法,从而快速取得进展。
尽管DeepSeek未公布训练R1所使用的计算资源,但生成合成数据和进行强化学习都需要大量计算。在资源相对有限的情况下,DeepSeek能快速赶上o1,体现了其高效利用资源的能力。
另外,o3模型能力显著高于R1和o1。OpenAI展示的o3在基准测试中的垂直扩展能力,表明尽管DeepSeek的R1取得了明显进步,但在AI领域仍存在更高的技术水平,还有很大的发展空间。
DeepSeek的技术成就
技术创新:
-
多令牌预测(MTP):DeepSeek V3采用了前所未有的大规模多令牌预测技术。这种技术通过添加注意力模块来预测接下来的几个令牌,而非单一令牌,从而提高了训练期间的模型性能,并在推理时可以被丢弃。
-
混合专家模型(MoE):V3是一个由多个小专家模型组成的混合专家模型,每个专家模型专注于不同的任务。DeepSeek实现了一个“门控网络”,有效地将令牌路由到正确的专家模型,从而提高了路由效率并减少了训练过程中每令牌相对模型总体大小的参数变化。
-
多头潜在注意力(MLA):MLA是减少推理成本的关键创新之一。它通过减少每个查询所需的KV缓存量(约93.3%),显著降低了硬件需求和成本。
训练效率:
-
混合专家模型面临的挑战是如何确定哪个令牌应路由到哪个子模型或“专家”。DeepSeek通过实施一个高效的门控网络解决了这一问题,确保路由过程不会影响模型性能。
-
强化学习(RL)在R1的训练中起到了重要作用,特别是在格式化和有用性及无害性方面的优化。
推理效率:
-
MLA通过减少每个查询所需的KV缓存量,大幅降低了硬件需求和成本,DeepSeek可能以成本价提供推理服务以获取市场份额。
参考文献:https://semianalysis.com/2025/01/31/deepseek-debates/