翻译: Anthropic CEO:DeepSeek-R1是人工智能领域的革命吗?二
但随后,他继续表示,DeepSeek-R1并不那么特殊。尽管Twitter上的人群取笑他过于面对现实,我认为他在这方面提出了一些很好的观点。
💰 DeepSeek-R1真的比OpenAI/Anthropic/Google/Meta的模型便宜得离谱吗?Claude-3.5-Sonnet的训练成本是多少?
“训练成本是几千万美元”。因此,训练DeepSeek的费用为550万美元,虽然低,但并非异常低。可以说,主要成本来自大型AI实验室的实验和预训练模型。而且,DeepSeek真的只用了几千个旧版A100处理器吗?Amodei似乎对此表示怀疑(他并不孤单):有传言称,DeepSeek可能使用了50,000个Hopper代GPU:不一定是H100,可能是H20到H800之间,取决于DeepSeek如何绕过美国的出口限制。
Amodei提议将模型的性能放回到人工智能领域的整体快速进展的视野中:与这种改进曲线相比,他表示,R1在准确性上的成就并不特殊,甚至相较美国模型,它的表现较晚。而在价格上的成就虽然令人印象深刻,但也不是革命性的突破。
➡️ 这是Amodei回应最激烈的地方。他认为DeepSeek V3并不如原版Sonnet 3.5好,“晚了7到10个月”。但他提到的Sonnet版本实际上是更新版的Sonnet-3.5,有时非正式地称为3.6。你总是需要一定的沙文主义!
➡️ 此外,虽然他关于在曲线上的看法是对的,我认为实际上有两条曲线:一条是中国开放模型与美国封闭模型的曲线,当前中国模型已赶超美国模型。考虑到它们的势头,中国的模型可能很快会领先。
这可能就是为什么,在说“嗯,DeepSeek的技术并不那么好”之后,Amodei的文章最终变成了强烈支持出口管制的言论,类似于“我们不必害怕DeepSeek的研究人员,但要警惕控制他们的专制政府,并通过出口管制巩固西方的优势”。
➡️ 鉴于几年军事技术的进步可能带来的巨大差异(看看海湾战争),这一点可能是有道理的。
尽管有上述的警示,我发现他的短文非常有趣,大家应该去阅读一下!👉 https://darioamodei.com/on-deepseek-and-export-controls
(此外,他的上一篇文章《Machines of Loving Grace》也非常精彩。)
参考
https://huggingface.co/blog/m-ric/dario-amodei-on-deepseek-r1