当前位置: 首页 > article >正文

翻译: Anthropic CEO:DeepSeek-R1是人工智能领域的革命吗?二

在这里插入图片描述

但随后,他继续表示,DeepSeek-R1并不那么特殊。尽管Twitter上的人群取笑他过于面对现实,我认为他在这方面提出了一些很好的观点。

💰 DeepSeek-R1真的比OpenAI/Anthropic/Google/Meta的模型便宜得离谱吗?Claude-3.5-Sonnet的训练成本是多少?
“训练成本是几千万美元”。因此,训练DeepSeek的费用为550万美元,虽然低,但并非异常低。可以说,主要成本来自大型AI实验室的实验和预训练模型。而且,DeepSeek真的只用了几千个旧版A100处理器吗?Amodei似乎对此表示怀疑(他并不孤单):有传言称,DeepSeek可能使用了50,000个Hopper代GPU:不一定是H100,可能是H20到H800之间,取决于DeepSeek如何绕过美国的出口限制。

Amodei提议将模型的性能放回到人工智能领域的整体快速进展的视野中:与这种改进曲线相比,他表示,R1在准确性上的成就并不特殊,甚至相较美国模型,它的表现较晚。而在价格上的成就虽然令人印象深刻,但也不是革命性的突破。

➡️ 这是Amodei回应最激烈的地方。他认为DeepSeek V3并不如原版Sonnet 3.5好,“晚了7到10个月”。但他提到的Sonnet版本实际上是更新版的Sonnet-3.5,有时非正式地称为3.6。你总是需要一定的沙文主义!

➡️ 此外,虽然他关于在曲线上的看法是对的,我认为实际上有两条曲线:一条是中国开放模型与美国封闭模型的曲线,当前中国模型已赶超美国模型。考虑到它们的势头,中国的模型可能很快会领先。

这可能就是为什么,在说“嗯,DeepSeek的技术并不那么好”之后,Amodei的文章最终变成了强烈支持出口管制的言论,类似于“我们不必害怕DeepSeek的研究人员,但要警惕控制他们的专制政府,并通过出口管制巩固西方的优势”。

➡️ 鉴于几年军事技术的进步可能带来的巨大差异(看看海湾战争),这一点可能是有道理的。

尽管有上述的警示,我发现他的短文非常有趣,大家应该去阅读一下!👉 https://darioamodei.com/on-deepseek-and-export-controls

(此外,他的上一篇文章《Machines of Loving Grace》也非常精彩。)

参考

https://huggingface.co/blog/m-ric/dario-amodei-on-deepseek-r1


http://www.kler.cn/a/527628.html

相关文章:

  • 【Python蓝桥杯备赛宝典】
  • Ethflow Round 1 (Codeforces Round 1001, Div. 1 + Div. 2)(A,B,C,E1)
  • 留学生scratch计算机haskell函数ocaml编程ruby语言prolog作业VB
  • vim操作简要记录
  • ICSE‘25 LLM Assistance for Memory Safety
  • Android Studio 正式版 10 周年回顾,承载 Androider 的峥嵘十年
  • 一文读懂fgc之cms
  • web安全测试之 xss攻击_request
  • [openwrt] odhcpd ra_management Vs ra_flags 和 ra_slaac
  • 守护进程
  • 代码随想录34 动态规划
  • C动态库的生成与在Python和QT中的调用方法
  • 猿人学web 19题(js逆向)
  • 为AI聊天工具添加一个知识系统 之70 详细设计 之11 维度运动控制的应用:上下文受控的自然语言
  • Git进阶之旅:Git 分支管理
  • gcc和g++的区别以及明明函数有定义为何链接找不到
  • 计算机网络——流量控制
  • CSS 溢出内容处理:从基础到实战
  • 解锁豆瓣高清海报(一) 深度爬虫与requests进阶之路
  • [EAI-029] RoboVLMs,基于VLM构建VLA模型的消融研究
  • Ubuntu 系统,如何使用双Titan V跑AI
  • Learning Vue 读书笔记 Chapter 3
  • 每日一博 - 三高系统架构设计:高性能、高并发、高可用性解析
  • 扩展无限可能:Obsidian Web Viewer插件解析
  • buuuctf_秘密文件
  • 亚博microros小车-原生ubuntu支持系列:18 Cartographer建图