当前位置：首页 > article >正文

翻译: Dario Amodei 关于DeepSeek与出口管制二

article 2025/2/1 16:29:43

DeepSeek的模型

上述三种动态可以帮助我们理解DeepSeek最近的发布。大约一个月前，DeepSeek发布了一个名为“DeepSeek-V3”的模型，这是一个纯粹的预训练模型——上面第3点描述的第一阶段。然后，上周，他们发布了“R1”，这添加了第二阶段。虽然不能完全从外部确定这些模型的所有细节，但以下是我对这两个发布的最佳理解。

DeepSeek-V3实际上是真正的创新，应该让人们在一个月前就注意到（我们当然注意到了）。作为一个预训练模型，它在某些重要任务上的表现接近美国最先进的模型，同时训练成本大幅降低（尽管我们发现Claude 3.5 Sonnet在某些其他关键任务上，特别是实际编码任务上，仍然表现更好）。DeepSeek团队通过一些真正令人印象深刻的创新实现了这一点，主要集中在工程效率上。特别是在“键值缓存”管理方面，以及推动“专家混合”方法的应用上，DeepSeek取得了比以往更大的突破。

然而，值得更仔细地观察：

DeepSeek并不是“以600万美元做到了美国人工智能公司花费数十亿美元才能做到的事”。我只能为Anthropic发言，但Claude 3.5 Sonnet是一个中型模型，训练成本为数千万美元（我不会给出具体数字）。此外，3.5 Sonnet的训练过程中并未使用任何更大或更昂贵的模型（与某些谣言相反）。Sonnet的训练是在9到12个月前进行的，而DeepSeek的模型是在11月/12月训练的，尽管Sonnet在许多内部和外部评估中仍然领先。因此，我认为一个公平的说法是：“DeepSeek生产了一个接近美国模型7到10个月前表现的模型，成本远低于美国模型（但远没有某些人所说的那样高）”。

如果历史上成本曲线下降的趋势大约是每年4倍，那么按照常规的历史成本下降趋势——就像2023年和2024年发生的那样——我们应该期待现在的模型比3.5 Sonnet/GPT-4便宜3到4倍。由于DeepSeek-V3的表现比这些美国前沿模型差——假设它在规模曲线上大约落后2倍（我认为这个估计对DeepSeek-V3是相当宽松的）——这意味着，DeepSeek-V3的训练成本比1年前开发的美国模型低8倍完全是正常的，完全符合趋势。我不会给出具体数字，但从前面的内容可以看出，即便按DeepSeek的训练成本计算，他们最多也只是符合趋势，甚至可能连这一点都不完全符合。例如，这比最初的GPT-4到Claude 3.5 Sonnet推理价格差异（10倍）还要小，而3.5 Sonnet比GPT-4更优秀。所有这些意味着，DeepSeek-V3并不是一个独特的突破，也没有从根本上改变LLM的经济学；它只是持续成本降低曲线上的一个预期点。这次的不同之处在于，首次展示这一预期成本降低的是一家中国公司。这在地缘政治上具有重要意义。然而，美国公司很快也会效仿——他们不会通过复制DeepSeek来做到这一点，而是因为他们也正在实现通常的成本下降趋势。

DeepSeek和美国人工智能公司在训练主力模型时，都有更多的资金和更多的芯片。额外的芯片用于研发，开发模型背后的想法，有时还用于训练更大的模型，这些模型尚未准备好（或者需要多次尝试才能正确训练）。据报道——我们不能完全确定它是否真实——DeepSeek实际上拥有50,000个Hopper代芯片，我猜测这大约是美国主要人工智能公司芯片数量的2-3倍（例如，它是xAI“Colossus”集群的2-3倍少）。这些50,000个Hopper芯片的费用大约为10亿美元。因此，DeepSeek作为公司（与训练单一模型的花费区分开来）的总开支，并不与美国人工智能实验室差异很大。

需要注意的是，"规模曲线"的分析有些过于简化，因为模型在某些方面有所不同，并且有不同的优缺点；规模曲线的数字只是粗略的平均值，忽略了很多细节。我只能为Anthropic的模型发言，但如我上面所暗示，Claude在编码和与人互动方面设计得非常好（许多人使用它来获取个人建议或支持）。在这些和一些额外任务上，DeepSeek是无法与之相比的。这些因素在规模数字中并没有体现。

R1是上周发布的模型，引起了广泛的公众关注（包括Nvidia股价约下降了17%），从创新或工程角度来看，它比V3要少得多。它加入了训练的第二阶段——强化学习，如上文第3点所述——并基本上复制了OpenAI在o1中所做的工作（它们似乎在规模和效果上相似）。然而，由于我们处于规模曲线的初期阶段，因此只要起始模型足够强大，几家公司就可以生产这种类型的模型。给定V3，生产R1的成本可能非常低。因此，我们正处于一个有趣的“交叉点”，在这里，暂时有几家公司可以生产良好的推理模型。随着大家进一步攀升规模曲线，这种情况将迅速不再成立。