翻译: Dario Amodei 关于DeepSeek与出口管制二
DeepSeek的模型
上述三种动态可以帮助我们理解DeepSeek最近的发布。大约一个月前,DeepSeek发布了一个名为“DeepSeek-V3”的模型,这是一个纯粹的预训练模型——上面第3点描述的第一阶段。然后,上周,他们发布了“R1”,这添加了第二阶段。虽然不能完全从外部确定这些模型的所有细节,但以下是我对这两个发布的最佳理解。
DeepSeek-V3实际上是真正的创新,应该让人们在一个月前就注意到(我们当然注意到了)。作为一个预训练模型,它在某些重要任务上的表现接近美国最先进的模型,同时训练成本大幅降低(尽管我们发现Claude 3.5 Sonnet在某些其他关键任务上,特别是实际编码任务上,仍然表现更好)。DeepSeek团队通过一些真正令人印象深刻的创新实现了这一点,主要集中在工程效率上。特别是在“键值缓存”管理方面,以及推动“专家混合”方法的应用上,DeepSeek取得了比以往更大的突破。
然而,值得更仔细地观察:
DeepSeek并不是“以600万美元做到了美国人工智能公司花费数十亿美元才能做到的事”。我只能为Anthropic发言,但Claude 3.5 Sonnet是一个中型模型,训练成本为数千万美元(我不会给出具体数字)。此外,3.5 Sonnet的训练过程中并未使用任何更大或更昂贵的模型(与某些谣言相反)。Sonnet的训练是在9到12个月前进行的,而DeepSeek的模型是在11月/12月训练的,尽管Sonnet在许多内部和外部评估中仍然领先。因此,我认为一个公平的说法是:“DeepSeek生产了一个接近美国模型7到10个月前表现的模型,成本远低于美国模型(但远没有某些人所说的那样高)”。
如果历史上成本曲线下降的趋势大约是每年4倍,那么按照常规的历史成本下降趋势——就像2023年和2024年发生的那样——我们应该期待现在的模型比3.5 Sonnet/GPT-4便宜3到4倍。由于DeepSeek-V3的表现比这些美国前沿模型差——假设它在规模曲线上大约落后2倍(我认为这个估计对DeepSeek-V3是相当宽松的)——这意味着,DeepSeek-V3的训练成本比1年前开发的美国模型低8倍完全是正常的,完全符合趋势。我不会给出具体数字,但从前面的内容可以看出,即便按DeepSeek的训练成本计算,他们最多也只是符合趋势,甚至可能连这一点都不完全符合。例如,这比最初的GPT-4到Claude 3.5 Sonnet推理价格差异(10倍)还要小,而3.5 Sonnet比GPT-4更优秀。所有这些意味着,DeepSeek-V3并不是一个独特的突破,也没有从根本上改变LLM的经济学;它只是持续成本降低曲线上的一个预期点。这次的不同之处在于,首次展示这一预期成本降低的是一家中国公司。这在地缘政治上具有重要意义。然而,美国公司很快也会效仿——他们不会通过复制DeepSeek来做到这一点,而是因为他们也正在实现通常的成本下降趋势。
DeepSeek和美国人工智能公司在训练主力模型时,都有更多的资金和更多的芯片。额外的芯片用于研发,开发模型背后的想法,有时还用于训练更大的模型,这些模型尚未准备好(或者需要多次尝试才能正确训练)。据报道——我们不能完全确定它是否真实——DeepSeek实际上拥有50,000个Hopper代芯片,我猜测这大约是美国主要人工智能公司芯片数量的2-3倍(例如,它是xAI“Colossus”集群的2-3倍少)。这些50,000个Hopper芯片的费用大约为10亿美元。因此,DeepSeek作为公司(与训练单一模型的花费区分开来)的总开支,并不与美国人工智能实验室差异很大。
需要注意的是,"规模曲线"的分析有些过于简化,因为模型在某些方面有所不同,并且有不同的优缺点;规模曲线的数字只是粗略的平均值,忽略了很多细节。我只能为Anthropic的模型发言,但如我上面所暗示,Claude在编码和与人互动方面设计得非常好(许多人使用它来获取个人建议或支持)。在这些和一些额外任务上,DeepSeek是无法与之相比的。这些因素在规模数字中并没有体现。
R1是上周发布的模型,引起了广泛的公众关注(包括Nvidia股价约下降了17%),从创新或工程角度来看,它比V3要少得多。它加入了训练的第二阶段——强化学习,如上文第3点所述——并基本上复制了OpenAI在o1中所做的工作(它们似乎在规模和效果上相似)。然而,由于我们处于规模曲线的初期阶段,因此只要起始模型足够强大,几家公司就可以生产这种类型的模型。给定V3,生产R1的成本可能非常低。因此,我们正处于一个有趣的“交叉点”,在这里,暂时有几家公司可以生产良好的推理模型。随着大家进一步攀升规模曲线,这种情况将迅速不再成立。
参考
https://darioamodei.com/on-deepseek-and-export-controls