翻译: Anthropic CEO:DeepSeek-R1是人工智能领域的革命吗?一
Anthropic的CEO Dario Amodei刚刚发表了他对这款10天前发布的中国模型的看法,这款模型本周引发了华尔街的恐慌,导致NVIDIA在一天内失去了17%的市值。简而言之,Amodei表示:“这个模型并不那么特殊,但它不错,我们不必害怕DeepSeek,而是要加强对中国的出口管制,以防万一”。
让我们解开这个问题,并将其放在背景中👇👇
Amodei从高层次的角度开始,阐述了人工智能发展的三种动态:
规模定律: 每个人都知道这个定律,最早被用于训练:当你将计算能力提升10倍时(假设你没有浪费它),性能会稳定地按固定步伐增加。
曲线的转移: 算法效率不断提高,从而改善了在固定成本下得到的结果。早在2020年,一篇论文量化了效率的提高为每年1.68倍,现在Amodei将这一数字提高到了每年4倍。此外,他提到了大家在Twitter上讨论的“Jevons悖论”:在固定性能下,价格/能源支出不断下降,但这种收益会立刻用来提高性能——因为潜在的收益巨大。
范式的转移: 2020年,人工智能的范式是制造更大的预训练模型。而现在,加入强化学习(RL)让模型的表现跳跃式提升,解锁了新的扩展法则。
强化学习的范式转移实际上是在o1中被发现的。在这方面,Amodei并不认为R1是一个工程突破:其基础模型DeepSeek-V3几个月前发布,才是更为重大的突破。
➡️ 在这里,我们不要忘记这是Anthropic的CEO在说:“推理并不难,基础模型更重要。”我们要记住,Anthropic目前并没有提供推理模型(至少还没有),他们的旗舰产品仍然是Claude-3.5-Sonnet(非常棒),因此他们可能有兴趣最小化推理模型的价值。
Amodei对DeepSeek-R1工程中的两个优点表示认可:
- 良好的KV缓存管理。
- 良好的专家混合模型使用,这种架构允许将令牌动态地路由到多个专家模型之一,以便更好的处理:该架构使网络的不同区域能够专注于不同的任务,从而在激活更少的参数的同时,理论上实现与密集模型相同的准确性。
参考
https://huggingface.co/blog/m-ric/dario-amodei-on-deepseek-r1