当前位置: 首页 > article >正文

翻译: Anthropic CEO:DeepSeek-R1是人工智能领域的革命吗?一

在这里插入图片描述

Anthropic的CEO Dario Amodei刚刚发表了他对这款10天前发布的中国模型的看法,这款模型本周引发了华尔街的恐慌,导致NVIDIA在一天内失去了17%的市值。简而言之,Amodei表示:“这个模型并不那么特殊,但它不错,我们不必害怕DeepSeek,而是要加强对中国的出口管制,以防万一”。
让我们解开这个问题,并将其放在背景中👇👇

Amodei从高层次的角度开始,阐述了人工智能发展的三种动态:

规模定律: 每个人都知道这个定律,最早被用于训练:当你将计算能力提升10倍时(假设你没有浪费它),性能会稳定地按固定步伐增加。
曲线的转移: 算法效率不断提高,从而改善了在固定成本下得到的结果。早在2020年,一篇论文量化了效率的提高为每年1.68倍,现在Amodei将这一数字提高到了每年4倍。此外,他提到了大家在Twitter上讨论的“Jevons悖论”:在固定性能下,价格/能源支出不断下降,但这种收益会立刻用来提高性能——因为潜在的收益巨大。
范式的转移: 2020年,人工智能的范式是制造更大的预训练模型。而现在,加入强化学习(RL)让模型的表现跳跃式提升,解锁了新的扩展法则。
强化学习的范式转移实际上是在o1中被发现的。在这方面,Amodei并不认为R1是一个工程突破:其基础模型DeepSeek-V3几个月前发布,才是更为重大的突破。

➡️ 在这里,我们不要忘记这是Anthropic的CEO在说:“推理并不难,基础模型更重要。”我们要记住,Anthropic目前并没有提供推理模型(至少还没有),他们的旗舰产品仍然是Claude-3.5-Sonnet(非常棒),因此他们可能有兴趣最小化推理模型的价值。

Amodei对DeepSeek-R1工程中的两个优点表示认可:

  • 良好的KV缓存管理。
  • 良好的专家混合模型使用,这种架构允许将令牌动态地路由到多个专家模型之一,以便更好的处理:该架构使网络的不同区域能够专注于不同的任务,从而在激活更少的参数的同时,理论上实现与密集模型相同的准确性。

参考

https://huggingface.co/blog/m-ric/dario-amodei-on-deepseek-r1


http://www.kler.cn/a/527223.html

相关文章:

  • RabbitMQ5-死信队列
  • 商品列表及商品详情展示
  • [EAI-026] DeepSeek-VL2 技术报告解读
  • OpenCV 版本不兼容导致的问题
  • AI会对你的行业产生什么影响
  • 【Leetcode刷题记录】166. 分数到小数
  • gentoo中利用ollama运行DeepSeek-R1
  • Bash 基础与进阶实践指南
  • 【搜索回溯算法篇】:拓宽算法视野--BFS如何解决拓扑排序问题
  • FreeRTOS从入门到精通 第十五章(事件标志组)
  • Spring Boot 配置文件详解:YAML vs Properties
  • 边缘计算与ROS结合:如何实现分布式机器人智能决策?
  • C 语言实现计算一年中指定日期是第几天 题】
  • 【Linux】软硬链接
  • 英语语法 第一天
  • 【算法应用】基于鲸鱼优化算法求解OTSU多阈值图像分割问题
  • python 之 zip 和 * 解包操作
  • 微店的Flutter混合开发组件化与工程化架构
  • SQL NOW() 函数详解
  • Day52:range()函数
  • 精准化糖尿病知识问答(LLM+机器学习预测模型)
  • ELK模块封装starter
  • 数据结构初探: 顺序表
  • Mysql的主从复制及扩展功能
  • 代发考试战报:1月22号 1月23号 CCDE考试通过
  • 深入解析JUnit中的@ClassRule注解