当前位置: 首页 > article >正文

翻译: Dario Amodei 关于DeepSeek与出口管制二

DeepSeek的模型

上述三种动态可以帮助我们理解DeepSeek最近的发布。大约一个月前,DeepSeek发布了一个名为“DeepSeek-V3”的模型,这是一个纯粹的预训练模型——上面第3点描述的第一阶段。然后,上周,他们发布了“R1”,这添加了第二阶段。虽然不能完全从外部确定这些模型的所有细节,但以下是我对这两个发布的最佳理解。

DeepSeek-V3实际上是真正的创新,应该让人们在一个月前就注意到(我们当然注意到了)。作为一个预训练模型,它在某些重要任务上的表现接近美国最先进的模型,同时训练成本大幅降低(尽管我们发现Claude 3.5 Sonnet在某些其他关键任务上,特别是实际编码任务上,仍然表现更好)。DeepSeek团队通过一些真正令人印象深刻的创新实现了这一点,主要集中在工程效率上。特别是在“键值缓存”管理方面,以及推动“专家混合”方法的应用上,DeepSeek取得了比以往更大的突破。

然而,值得更仔细地观察:

DeepSeek并不是“以600万美元做到了美国人工智能公司花费数十亿美元才能做到的事”。我只能为Anthropic发言,但Claude 3.5 Sonnet是一个中型模型,训练成本为数千万美元(我不会给出具体数字)。此外,3.5 Sonnet的训练过程中并未使用任何更大或更昂贵的模型(与某些谣言相反)。Sonnet的训练是在9到12个月前进行的,而DeepSeek的模型是在11月/12月训练的,尽管Sonnet在许多内部和外部评估中仍然领先。因此,我认为一个公平的说法是:“DeepSeek生产了一个接近美国模型7到10个月前表现的模型,成本远低于美国模型(但远没有某些人所说的那样高)”。

如果历史上成本曲线下降的趋势大约是每年4倍,那么按照常规的历史成本下降趋势——就像2023年和2024年发生的那样——我们应该期待现在的模型比3.5 Sonnet/GPT-4便宜3到4倍。由于DeepSeek-V3的表现比这些美国前沿模型差——假设它在规模曲线上大约落后2倍(我认为这个估计对DeepSeek-V3是相当宽松的)——这意味着,DeepSeek-V3的训练成本比1年前开发的美国模型低8倍完全是正常的,完全符合趋势。我不会给出具体数字,但从前面的内容可以看出,即便按DeepSeek的训练成本计算,他们最多也只是符合趋势,甚至可能连这一点都不完全符合。例如,这比最初的GPT-4到Claude 3.5 Sonnet推理价格差异(10倍)还要小,而3.5 Sonnet比GPT-4更优秀。所有这些意味着,DeepSeek-V3并不是一个独特的突破,也没有从根本上改变LLM的经济学;它只是持续成本降低曲线上的一个预期点。这次的不同之处在于,首次展示这一预期成本降低的是一家中国公司。这在地缘政治上具有重要意义。然而,美国公司很快也会效仿——他们不会通过复制DeepSeek来做到这一点,而是因为他们也正在实现通常的成本下降趋势。

DeepSeek和美国人工智能公司在训练主力模型时,都有更多的资金和更多的芯片。额外的芯片用于研发,开发模型背后的想法,有时还用于训练更大的模型,这些模型尚未准备好(或者需要多次尝试才能正确训练)。据报道——我们不能完全确定它是否真实——DeepSeek实际上拥有50,000个Hopper代芯片,我猜测这大约是美国主要人工智能公司芯片数量的2-3倍(例如,它是xAI“Colossus”集群的2-3倍少)。这些50,000个Hopper芯片的费用大约为10亿美元。因此,DeepSeek作为公司(与训练单一模型的花费区分开来)的总开支,并不与美国人工智能实验室差异很大。

需要注意的是,"规模曲线"的分析有些过于简化,因为模型在某些方面有所不同,并且有不同的优缺点;规模曲线的数字只是粗略的平均值,忽略了很多细节。我只能为Anthropic的模型发言,但如我上面所暗示,Claude在编码和与人互动方面设计得非常好(许多人使用它来获取个人建议或支持)。在这些和一些额外任务上,DeepSeek是无法与之相比的。这些因素在规模数字中并没有体现。

R1是上周发布的模型,引起了广泛的公众关注(包括Nvidia股价约下降了17%),从创新或工程角度来看,它比V3要少得多。它加入了训练的第二阶段——强化学习,如上文第3点所述——并基本上复制了OpenAI在o1中所做的工作(它们似乎在规模和效果上相似)。然而,由于我们处于规模曲线的初期阶段,因此只要起始模型足够强大,几家公司就可以生产这种类型的模型。给定V3,生产R1的成本可能非常低。因此,我们正处于一个有趣的“交叉点”,在这里,暂时有几家公司可以生产良好的推理模型。随着大家进一步攀升规模曲线,这种情况将迅速不再成立。

参考

https://darioamodei.com/on-deepseek-and-export-controls


http://www.kler.cn/a/527362.html

相关文章:

  • Java内存模型 volatile 线程安全
  • JAVA实战开源项目:在线文档管理系统(Vue+SpringBoot) 附源码
  • 关于el-table翻页后序号列递增的组件封装
  • 【后端】Flask
  • 基于Cipher的Java加密工具类
  • 【Rust自学】15.7. 循环引用导致内存泄漏
  • jinfo命令详解
  • Flask数据的增删改查(CRUD)_flask删除数据自动更新
  • RK3568使用QT搭建TCP服务器和客户端
  • JavaScript原型链与继承:优化与扩展的深度探索
  • deepseek-coder-v2模型,连接 Ollama API 失败
  • 【算法设计与分析】实验5:贪心算法—装载及背包问题
  • 哈萨克斯坦_行政边界省边界线面图层arcgis格式shp数据wgs84坐标分析测评
  • Linux系统上安装与配置 MySQL( CentOS 7 )
  • 17.2 图形绘制4
  • [Collection与数据结构] B树与B+树
  • 渗透测试之WAF组合条件绕过方式手法详解以及SQL注入参数污染绕过
  • KVM虚拟化
  • 基于51单片机和WS2812B彩色灯带的流水灯
  • Baklib助力企业实现高效灵活的基于云的内容中台转型
  • 基于springboot+vue的母婴护理知识共享系统
  • 【愚公系列】《循序渐进Vue.js 3.x前端开发实践》039-使用JavaScript的方式实现动画效果
  • 10.4 LangChain核心架构揭秘:模块化设计如何重塑大模型应用开发?
  • SpringBoot AOP 和 事务
  • AI应用部署——streamlit
  • 基于Rectified Flow FLUX的图像编辑方法 RF-Solver