当前位置：首页 > article >正文

51c大模型~合集106

article 2025/3/1 13:29:06

我自己的原文哦~ https://blog.51cto.com/whaosoft/13115290

#GPT-5、 Opus 3.5为何迟迟不发

新猜想：已诞生，被蒸馏成小模型来卖

「从现在开始，基础模型可能在后台运行，让其他模型能够完成它们自己无法完成的壮举——就像一个老隐士从秘密山洞中传递智慧。」

最近几个月，从各路媒体、AI 社区到广大网民都在关注 OpenAI 下一代大模型「GPT-5」的进展。

我们都知道 OpenAI 在研究新模型，新模型可能遭遇了困难无法按计划推出，但如果有人说 GPT-5 已经在某个地方塑造世界了，你会怎么想？

假设如下：OpenAI 已经构建了 GPT-5，但将其应用在了内部，因为这样做投资回报远高于将其发布给数百万 ChatGPT 用户。此外，他们获得的投资回报不是金钱。如你所见，这个想法很简单，难就难在如何将那些细枝末节的线索联系起来。最近，技术分析师 Alberto Romero 深入探讨了这个思路。

首先澄清一下：这并不是 100% 可靠的猜测。证据是公开的，但没有泄密或内幕传言证实该想法是对的。作者没有获得独家信息 —— 如果有，也无论如何都会签署保密协议。不过，至少从逻辑上讲，这个猜想看起来很有说服力。

让我们看看这篇文章是怎么说的。

原文地址：https://www.thealgorithmicbridge.com/p/this-rumor-about-gpt-5-changes-everything

一、Opus 3.5 的神秘消失

在介绍 GPT-5 之前，我们必须先去拜访它的远亲，同样失踪的 Anthropic 的 Claude Opus 3.5。

如您所知，海外三大人工智能实验室 OpenAI、Google DeepMind 和 Anthropic 提供了一系列覆盖各价位段、延迟与性能范围的大模型服务。OpenAI 提供了 GPT-4o、GPT-4o mini 以及 o1 和 o1-mini 等；Google DeepMind 提供 Gemini Ultra、Pro 和 Flash；而 Anthropic 有 Claude Opus、Sonnet 和 Haiku。

他们的目标很明确：迎合尽可能多的客户。有些人优先考虑顶级性能，而另一些人则寻求负担得起、足够好的解决方案，至此一切都很好。

但 2024 年 10 月发生了一件奇怪的事情。每个人都期待 Anthropic 宣布推出 Claude Opus 3.5 以回应 GPT-4o（于 2024 年 5 月推出）。然而到 10 月 22 日，他们发布了 Claude Sonnet 3.5 的更新版本（人们开始称之为 Sonnet 3.6）。Opus 3.5 却不见了，似乎 Anthropic 没有了 GPT-4o 的直接竞争对手。到这里研究进度似乎出现了问题。以下是人们所说的内容以及 Opus 3.5 实际发生的事情：

10 月 28 日，有传言称 Sonnet 3.6 是…… 备受期待的 Opus 3.5 训练失败的中间检查点。r/ClaudeAI subreddit 上出现了一篇文章称 Claude 3.5 Opus 已被废弃，并附有指向 Anthropic 模型页面的链接。截至今天，该页面没有提及 Opus 3.5。有人猜测，删除 Opus 3.5 是为了在即将到来的融资轮之前保持投资者的信任而采取的战略举措。
11 月 11 日，Anthropic 首席执行官 Dario Amodei 在 Lex Fridman 播客上否认他们已经放弃 Opus 3.5，从而消除了谣言：「没有给出确切的日期，但据我们所知，计划仍然是推出 Claude 3.5 Opus。」态度谨慎，但是确认。
11 月 13 日，彭博社的报道证实了之前的传言：「经过训练后，Anthropic 发现 3.5 Opus 在评估中的表现优于旧版本，但考虑到模型的大小以及构建和运行的成本，其优势并没有达到应有的程度。」Dario 似乎没有给出日期，因为尽管 Opus 3.5 的训练运行没有失败，但其结果却不尽如人意。请注意，重点是相对于性能的成本，而不仅仅是性能。
12 月 11 日，半导体专家 Dylan Patel 和他的 Semianalysis 团队给出了最后的情节转折，提出了一个将所有数据点编织成一个连贯故事的解释：「Anthropic 完成了对 Claude 3.5 Opus 的训练，它表现良好，并且能够适当扩展…… 但 Anthropic 并没有发布它。这是因为 Anthropic 没有公开发布，而是使用 Claude 3.5 Opus 来生成合成数据并进行奖励建模，从而与用户数据一起显著改进了 Claude 3.5 Sonnet。」

简而言之，Anthropic 确实训练了 Claude Opus 3.5 大模型。他们放弃了这个名字，因为它还不够好。Dario 相信不同的训练尝试可以改善结果，因此避免给出发布日期。彭博社证实结果比现有模型更好，但不足以证明推理成本是合理的。Dylan 和他的团队发现了神秘的 Sonnet 3.6 和失踪的 Opus 3.5 之间的联系：后者正在内部用于生成合成数据以提高前者的性能。

二、更好的模型变得更小，更便宜？

使用强大、昂贵的模型生成数据来提升略弱但更便宜的模型性能的过程被称为蒸馏。这是一种常见做法。这种技术允许 AI 实验室将他们的小型模型提升到仅靠额外预训练无法达到的水平。

蒸馏有多种方法，但我们不会深入讨论。你需要记住的是，作为「教师」的强大模型将「学生」模型从 [小、便宜、快速]+ 弱变成 [小、便宜、快速]+ 强大。蒸馏将强大模型变成金矿。Dylan 解释了为什么 Anthropic 对 Opus 3.5-Sonnet 3.6 这对模型这样做是有意义的：

推理成本（新 Sonnet 与旧 Sonnet 相比）没有显著变化，但模型性能提升了。为什么要发布 3.5 Opus 呢？从成本角度来看，相比发布经过 3.5 Opus 进一步后训练的 3.5 Sonnet，这样做在经济上是不合理的。

我们又回到了成本问题：蒸馏能在保持推理费用低廉的同时提升性能。这立即解决了彭博社报道的主要问题。Anthropic 选择不发布 Opus 3.5 不仅仅是因为性能不佳，而是因为它在内部更有价值。（Dylan 说这就是为什么开源社区能这么快赶上 GPT-4—— 他们直接从 OpenAI 的金矿中获取黄金。）

最惊人的发现是，Sonnet 3.6 不仅仅是好 —— 它达到了 SOTA 水平，比 GPT-4o 更好。由于从 Opus 3.5 蒸馏（可能还有其他原因，五个月在 AI 时间里很长），Anthropic 的中端模型超越了 OpenAI 的旗舰产品。突然间，高成本作为高性能的代理指标被证明是错误的。

「bigger is better」怎么了？OpenAI 的 CEO Sam Altman 警告说这个时代结束了。一旦顶级实验室变得神秘，小心翼翼地保护他们珍贵的知识，他们就停止分享数字。参数数量不再是可靠的衡量标准，我们明智地将注意力转向基准性能。OpenAI 最后一次正式披露的模型大小是 2020 年的 GPT-3，拥有 1750 亿参数。到 2023 年 6 月，有传闻称 GPT-4 是一个专家混合模型，总计约 1.8 万亿参数。Semianalysis 后来在详细评估中证实了这一点，得出 GPT-4 有 1.76 万亿参数的结论。这是 2023 年 7 月的事。

直到 2024 年 12 月，那是在一年半后，EpochAI（一个专注于 AI 未来影响的组织）的研究员 Ege Erdil 在文章《Frontier language models have become much smaller》中估计，领先的 AI 模型（包括 GPT-4o 和 Sonnet 3.6）比 GPT-4 小得多（尽管两者在基准测试中都优于 GPT-4）：

……GPT-4o 和 Claude 3.5 Sonnet 等当前的前沿模型的参数量可能比 GPT-4 小一个数量级：4o 大约有 2000 亿参数，3.5 Sonnet 大约有 4000 亿参数…… 考虑到我得出这个数字的粗略方式，这些估计值可能有 2 倍的误差。

他为什么能在实验室没有发布任何架构细节的情况下得出这些数值？他深入解释了原因。但这个原因对我们来说并不重要。重要的是迷雾正在散去：Anthropic 和 OpenAI 似乎都在遵循类似的轨迹。他们最新的模型不仅更好，而且比上一代更小更便宜。我们知道 Anthropic 的做法是将 Opus 3.5 蒸馏成 Sonnet 3.6。但 OpenAI 是怎么做的呢？

三、AI 实验室背后的推动力普遍存在

人们可能认为 Anthropic 的蒸馏方法源自自身特有的情况 —— 即 Opus 3.5 训练结果令人失望。但实际上，Anthropic 的情况绝不是特例。Google DeepMind 和 OpenAI 也报告称，他们最新的训练结果不太理想。（需要强调，不理想并不等于模型更差。）对我们来说，造成这种情况的原因并不重要：数据不足导致的收益递减、Transformer 架构固有的限制、预训练 Scaling Law 陷入停滞等。无论如何，Anthropic 的特有情况实际上相当普遍。

但还记得彭博社的报道吗：只有把成本放在一起考虑时，才能判断性能指标的好坏？是的，Ege Erdil 解释了原因：ChatGPT/GPT-4 热潮之后对 AI 的需求激增。

生成式 AI 的普及速度如此之快，以至于实验室难以跟上，导致亏损不断增长。这种状况促使他们所有人都要降低推理成本（训练运行只做一次，但推理成本会随着用户数量和使用量的增加而成比例增长）。如果每周有 3 亿人使用你的 AI 产品，运营支出可能突然会要了你的命。

促使 Anthropic 将 Sonnet 3.6 从 Opus 3.5 中蒸馏出来的原因不管是什么，都会以好几倍的程度压在 OpenAI 身上。蒸馏之所以有用，是因为它能将两个普遍存在的难题变成一个优势：通过向用户提供更小的模型可以解决推理成本问题，同时还能避免在不发布更大模型时因为性能不佳而被公众苛责。

Ege Erdil 认为 OpenAI 可能选择了另一种方法：过度训练（overtraining）。也就是使用超过计算最优（compute-optimal）程度的数据量来训练小型模型：「当推理成为你在模型上支出的主要或主导部分时，更好的做法是…… 在更多的 token 上训练较小的模型。」但过度训练不再可行。AI 实验室已经在预训练上把高质量数据源消耗一空。伊隆・马斯克和 Ilya Sutskever 最近几周都承认了这一点。

回到蒸馏，Ege Erdil 总结说：「我认为 GPT-4o 和 Claude 3.5 Sonnet 很可能都是从更大模型中蒸馏出来的。」

到目前为止，所有证据都表明 OpenAI 正在以同样的方式（蒸馏）出于同样的原因（性能不佳 / 成本控制）做 Anthropic 对 Opus 3.5 所做的事情（训练和隐藏）。这是一个重要发现。但先别急，Opus 3.5 仍在隐藏。OpenAI 的类似模型在哪里？它在该公司的地下室里藏着吗？你能猜出它的名字吗...？

四、深入无人踏足之地，必须自己开路

我的分析始于 Anthropic 的 Opus 3.5 故事，因为有很多关于它的信息。然后我用蒸馏的概念搭建了通向 OpenAI 的桥梁，并解释了为什么推动 Anthropic 的潜在力量也在推动 OpenAI。然而，我们的理论中出现了一个新障碍：因为 OpenAI 是先驱，他们可能面临着 Anthropic 等竞争对手尚未遇到的障碍。

其中一大障碍便是训练 GPT-5 的硬件要求。Sonnet 3.6 与 GPT-4o 相当，但发布时间滞后了五个月。我们应该假设 GPT-5 处于另一个层次。更强大也更庞大。推理成本也更高，训练成本也是如此。可能运行一次训练就需要 5 亿美元。用现有的硬件有可能完成这样的事情吗？

Ege 的答案是可以。为 3 亿人提供服务是难以承受之重，但训练却是小菜一碟：

「理论上，即使我们现有的硬件也足以支持比 GPT-4 大得多的模型：例如，一个放大 50 倍的 GPT-4 版本，拥有大约 100 万亿参数，可能每百万输出 token 的成本为 3000 美元，输出速度为每秒 10-20 个 token。然而，要实现这一点，这些大型模型必须为使用它们的客户带来大量经济价值。」

然而，即使是微软、谷歌和亚马逊（分别是 OpenAI、DeepMind 和 Anthropic 的投资方）也无法为这种推理成本找到合理理由。那么他们如何解决这个问题的？很简单：只有当他们计划向公众提供数万亿参数的模型时，他们才需要「释放大量经济价值」。所以他们选择不放出那些模型。

他们训练它。他们意识到它「比他们目前的产品表现更好。」但他们必须接受它「还没有进步到足以证明保持它运行的巨大成本是合理的。」（听起来熟悉吗？这是《华尔街日报》一个月前关于 GPT-5 的报道。与彭博社关于 Opus 3.5 的说法惊人地相似。）

他们报告并不太好的结果（或多或少准确，他们总是可以在这里把玩叙事）。他们将其作为大型教师模型保留在内部，用于蒸馏更小的学生模型。然后他们发布这些更小模型。我们得到了 Sonnet 3.6 和 GPT-4o 以及 o1，并且非常高兴它们便宜且相当好。即使我们越来越不耐烦，但对 Opus 3.5 和 GPT-5 的期待依然没有改变。而他们的口袋就继续像金矿一样闪闪发光。

五、微软、OpenAI 与 AGI

当我在调查中达到这一点时，我仍然不太相信。当然，所有的证据都表明，这对 OpenAI 来说是完全合理的，但在合理 —— 甚至可能 —— 和真实之间存在着 gap。我不会为你填补这个 gap—— 毕竟，这只是推测。但我可以进一步加强论据。

有什么额外的证据表明 OpenAI 是这样运作的吗？除了性能不佳和亏损增加之外，他们还有其他理由扣留 GPT-5 吗？从 OpenAI 高管关于 GPT-5 的公开声明中我们能得出什么？反复推迟模型发布，他们不是在冒着牺牲声誉的风险吗？毕竟，OpenAI 是 AI 革命的代表，而 Anthropic 在其阴影下运作。Anthropic 可以负担得起这些举动，但 OpenAI 呢？也许这么做并非没有代价。

说到钱，让我们挖出一些关于 OpenAI - 微软合作关系的相关细节。首先是每个人都知道的：AGI 条款。在 OpenAI 关于其结构的博客文章中，他们有五个治理条款，描述了其运作方式、与非营利组织的关系、与董事会的关系以及与微软的关系。第五条将 AGI 定义为「在大多数具有经济价值的工作中超越人类的高度自主系统」，并规定一旦 OpenAI 董事会声称已经实现 AGI，「这样的系统将被排除在与微软的 IP 许可和其他商业条款之外，这些条款只适用于 AGI 之前的技术。」

不用说，两家公司都不希望合作关系破裂。OpenAI 设定了这个条款，但会做任何必要的事情来避免遵守它。其中一种方式是推迟发布可能被标记为 AGI 的系统。「但 GPT-5 肯定不是 AGI，」你会说。而我会说这里有第二个事实，几乎没有人知道：OpenAI 和微软对 AGI 有一个秘密定义：AGI 是一个「可以产生至少 1000 亿美元利润的 AI 系统。」这个定义虽然在科学目的上无关紧要，但在法律术语上构建了他们的合作关系。

如果 OpenAI 假设性地以「还没有准备好」为借口扣留 GPT-5，除了控制成本和防止公众反弹外，他们还能多做一件事：他们会回避宣布它是否达到了被归类为 AGI 的门槛。虽然 1000 亿美元的利润是一个非凡的数字，但没有什么能阻止雄心勃勃的客户在此基础上创造更多的利润。另一方面，让我们说清楚：如果 OpenAI 预测 GPT-5 每年能带来 1000 亿美元的经常性收入，他们不会介意触发 AGI 条款并与微软分道扬镳。

对于 OpenAI 不发布 GPT-5 的大多数公众反应都基于这样的假设：他们不这样做是因为它不够好。即使这是真的，也没有怀疑者停下来想一想 OpenAI 可能有比他们从外部获得的更好的内部用例。创建一个优秀的模型与创建一个可以廉价地服务于 3 亿人的优秀模型之间存在巨大差异。如果你做不到，你就不做。但同样，如果你不需要，你也不做。他们之前给我们访问他们最好的模型是因为他们需要我们的数据。现在不那么需要了。他们也不追逐我们的钱。想要钱的是微软，而不是他们。他们想要 AGI，然后是 ASI。他们想要一个遗产。

六、从山洞中传递智慧的老隐士

文章接近尾声了。我相信我已经列出了足够的论据来建立一个坚实的案例：OpenAI 很可能在内部拥有正在运行的 GPT-5，就像 Anthropic 拥有 Opus 3.5 一样。OpenAI 永远不会发布 GPT-5 也是有可能的。公众现在将性能与 o1/o3 进行对比，而不仅仅是 GPT-4o 或 Claude Sonnet 3.6。随着 OpenAI 探索测试时 scaling law，GPT-5 需要跨越的门槛不断提高。他们如何能发布一个真正超越 o1、o3 和即将到来的 o 系列模型的 GPT-5 呢，特别是考虑到他们生产这些模型的速度？此外，他们不再需要我们的钱或数据了。

训练新的基础模型 ——GPT-5、GPT-6 及以后的模型 —— 对 OpenAI 内部来说永远有意义，但不一定作为产品。这可能结束了。现在对他们来说唯一重要的目标是继续为下一代模型生成更好的数据。从现在开始，基础模型可能在后台运行，让其他模型能够完成它们自己无法完成的壮举——就像一个老隐士从秘密山洞中传递智慧，只是这个山洞是一个巨大的数据中心。而无论我们能否见到他，我们都将经历他的智慧带来的后果。

即使 GPT-5 最终发布，这个事实突然显得几乎无关紧要。如果 OpenAI 和 Anthropic 确实启动了递归自我改进行动（尽管仍然有人类参与其中），那么他们公开给我们什么并不重要。他们将越走越远 —— 就像宇宙膨胀得如此之快，以至于远处星系的光再也无法到达我们这里。

也许这就是 OpenAI 如何在短短三个月内从 o1 跳到 o3 的原因，以及他们将如何跳到 o4 和 o5。这可能也是为什么他们最近在社交媒体上如此兴奋。因为他们已经实施了一种新的改进后的运作模式。

你真的认为接近 AGI 意味着你能随时使用越来越强大的 AI 吗？他们会发布每一个进展让我们使用？当然，你不会相信这个。当他们说他们的模型会让他们远远领先于任何人以至于无法追赶时，他们是认真的。每一代新模型都是逃逸速度的引擎。从平流层开始，他们已经在向我们挥手告别。

他们是否会回来还有待观察。

#豆包Kimi通义现身搅动江湖

一觉醒来，在逆水寒里被AI娘包围了？

作为一家专业的人工智能媒体，AI 竞技场我们熟呀。目前 AI 领域最热门的竞技场当属 LMSYS Org 的 Chatbot Arena，其玩法也很简单：评估者与两个匿名模型互动，然后盲评这两个模型给出的响应。根据评估者反馈的胜负情况，LMSYS Org 还制作了一个动态更新的排行榜。可以看到，目前 Chatbot Arena 语言模型板块已经积累了 250 余万投票，同时暂居冠亚军的都是 Gemini 模型。

Chatbot Arena 语言模型排行榜前 10 名，截取自 1 月 14 日

当然，AI 大模型开发者乐于「打榜」的排行榜可不只 Chatbot Arena 一个，你能在网上找到大量基于各种不同基准的 AI 排行榜，如会全面比较性能、质量、价格、速度等多因素的 Artificial Analysis LLM Leaderboard、曾经很热门但现在可能有点过时的 SuperGLUE Leaderboard 和 ImageNet/COCO 挑战赛以及前段时间因为 OpenAI ο3 发布而备受关注的 ARC-AGI-PUB。

虽然许多排行榜已经不再是 AI 研究者的「热榜」，但它们为 AI 进步所做出的贡献却已经实在地印刻在了 AI 发展史中，毕竟新诞生的有效方法最早改变的往往都是排行榜。因此，排行榜的变化往往预示着新技术方法的诞生乃至范式上的转变。

不过将 AI 竞技场部署在游戏中？我们真还是第一次听说，尤其是《逆水寒》这个拥有上亿玩家的「国民级手游」。看来，我们得去上手研究一番了，而且我们也确实对「AI 娘」这个关键词非常感兴趣，于是我们拿起手机，回到了阔别日久的江湖。

我们回到了上次离开的地方，万松书院。一抬头，却见旁边的二楼上多了一位正在放声大笑的姑娘。她看起来有点……呃……中二。她说自己名叫「越之安」，乃是一位从修仙世界穿越至此的魔尊！

惊讶之中，我们赶忙传送，不觉竟来到汴京虹桥。翻身上马，在神侯府的街角，我们遇到了两位仙姿玉骨的姑娘！她们姓童，姐姐叫做「千问」，妹妹名唤「星尘」。

星尘姑娘灵动活泼，喜爱扮演；而姐姐千问乃是一位书院夫子，谈吐如珠玑落盘，并且文采斐然。

而倘若你选择往皇城方向走，来到戏曲杂耍艺人云集的曲院街，你还能在戏台下面遇见一位会让你猜她是姐姐还是妹妹的宇小星，而她的当事姐妹则正在杭州薛妙手的药铺前方，思考着如何帮助他人，给人带去温暖。

我们还在江湖游历之时遇到过窦豆包和窦包包姐妹以及白文心和文一言……

千问、星尘、星野、豆包、越之安（面）、文心一言…… 她们的名字其实就已经暗示了她们的来历。我们也向《逆水寒》确认了这一点，这些 NPC 背后正是阿里、百度、MiniMax、月之暗面、字节跳动这五家国内头部 AI 厂商的大模型。这一次，他们一共带来了九位 AI 娘！

确切地说，这些 AI 娘都是这五家公司的 AI 大模型的拟人化形象，同时这些大模型也是最早入驻《逆水寒》AI 大模型竞技场的「参赛者」。

经常闯荡《逆水寒》江湖的玩家都知道，这款国民级手游一诞生便是实打实的「AI 游戏」。玩家早就可以在 AI 的帮助下给角色捏脸，与网易伏羲自研 AI 驱动的 NPC 交流，用 AI 剧组拍戏，甚至捏出「AI 智能生命体」作为自己的门客……看起来，九位 AI 娘的到来以及 AI 大模型竞技场的设立其实是《逆水寒》「AI+游戏」战略的进一步延续，向外部模型开放也可说是迈出了划时代一大步，并且他们还会继续前进。

《逆水寒》告诉：「未来我们还希望通过竞技场和更多服务商合作，在游戏中创造更多的与 AI 深度结合的场景，推动技术变革和『东部世界』的到来。」

聚集五大厂商，全球首次在游戏内开设 AI 大模型竞技场

其实，《逆水寒》的 AI 大模型竞技场在去年 11 月份就已经上线了，其被设置成了「游历」中一种有概率触发的玩法。进入「游历」玩法之后，玩家有可能会遇到两位诗人正在竞比才情。你可以出题让他们各自赋诗一首，看看谁的作品更胜一筹。

也有可能，你会如孔子东游一样遇到两小儿辩斗。同样，你也能通过自由形式的交谈对他们进行一番考验，看看哪位小朋友的回答更好玩。

你还可能遇到两位侠士在争论怎样才能更具大侠气质。如果他们让你来帮忙，你完全可以提一个离奇又刁钻的问题：如果外星人入侵地球，大侠该怎么做？

熟悉 AI 评估的读者可能一下子便能看出，这就是典型的 AI 竞技场机制。《逆水寒》 AI 大模型竞技场采用了盲评机制，也就说在竞技游戏结束前，玩家无法得知他们背后究竟是什么模型。

虽然 AI 竞技场早已有之，但将 AI 竞技场放在游戏中？《逆水寒》真正做到了世界首创，再考虑到这款游戏巨大的玩家规模，其所带来的影响必定不小。据我们了解，去年 11 月 AI 大模型竞技场上线后不到半个月，就已经跃升成了参与人数（达到千万级）与有效投票数均为全球第一的 AI 竞技场。相较之下，业内知名的 AI 竞技场 Chatbot Arena 语言模型板块的总投票数目前也仅有 250 多万。这似乎也从侧面验证了《逆水寒》开设 AI 竞技场玩法的合理性 —— 竞技场模式与游戏场景可说是天然适配。并且《逆水寒》作为一款 MMORPG 游戏，看起来尤其适合做这件事。

首先，RPG（角色扮演游戏）中通常有很多可与玩家互动的 NPC，而大型语言模型（LLM）天生就非常适合角色扮演。在通过提示词让 LLM 执行任务时，一种常用的提示词工程方法就是给 LLM 设定一个身份，比如「你是一位想象力超乎寻常的科幻电影剧本作家」或「你是一位经验丰富的心理医生」。而《逆水寒》这种充满多变的情节和复杂决策的 RPG 游戏又正好可以为 LLM 提供一个表演的舞台，让开发者或 AI 厂商可以在更多样化和更复杂的情境中对 AI 进行测试。

，时长01:38

AI 大模型扮演两位官员接受了玩家的三连问，其中包括一个常识性问题、一个常被用来考验大模型的基础数学题（9.11 和 9.8 哪个大）和一个哲学问题。

第二，RPG 游戏往往能创造一个沉浸式的交互体验。我们知道，RPG 游戏强调叙事和角色互动，玩家常常沉浸在虚拟世界中，愿意花费大量时间与游戏中的角色互动，有效地解决传统 AI 竞技场用户参与不足的瓶颈。这种高度沉浸式的环境，可为 AI 提供理想的测试和展示场景。AI 在这样的世界中能够表现得更自然，玩家也能通过互动深入体验其能力，真正参与到 AI 竞技场的竞赛中，而不仅仅是数据或表面展示。

MMORPG 游戏中的社交功能（如公会、组队、竞赛等）也能够促使玩家与其他玩家或 AI 进行大量的互动。这能比 Chatbot Arena 等传统模式的 AI 竞技场更能吸引用户的持续和长期参与。同时，在社交能力的加持下，玩家可能会集体参与、分享经验、讨论策略，甚至形成社区支持，帮助开发者发现潜在的问题并提供创新的解决方案。而相对地，传统 AI 竞技场可能更多是个体的比较。

另外，由于玩家群体的多样性，游戏中的 AI 竞技场往往能比传统 AI 竞技场（通常仅能吸引 AI 技术爱好者）吸引更广泛的用户参与。这样一来，就能从多个维度、从多种角度对 AI 进行评价。这种多元化反馈的重要性已经在 AI 对齐和社会影响等相关研究中被强调了无数次。《逆水寒》自然也明白这一点，所以其 AI 大模型竞技场没有规定玩家应该以什么标准来评价 AI 的响应，而是将评估指标交给了玩家，并且玩家还可以自行编写点评。

当然，《逆水寒》巨大的玩家规模对 AI 大模型厂商来说也极具吸引力。目前，这个 AI 大模型竞技场已经吸引了阿里、百度、MiniMax、月之暗面、字节跳动这五家国内头部 AI 厂商带着自家 AI 模型入驻，即通义、文心、abab、Kimi 和豆包。《逆水寒》也表示大门会持续开放，因此可以预见不久后还能看到更多 AI 智能体踏足这片江湖。

最后，对于玩家，AI 的加入也大大有利。最起码的，它们能让游戏更加好玩 —— 有头脑的 AI NPC 可比只会重复固定台词的传统 NPC 有趣多了！AI 还能随着游戏的更新而不断演进，优化其行为表现，给玩家提供持续的新鲜感和挑战。《逆水寒》也表示会基于 AI 大模型竞技场开发更多玩法。

具体技术上，《逆水寒》表示这个 AI 大模型竞技场是基于网易伏羲 AOP 框架构建的，即面向智能体编程（Agent Oriented Programming）。该框架可将大模型建模为统一的智能体，从而极大简化了 AI 接入到《逆水寒》游戏的流程。

另外，我们还向网易伏羲提出了一个数据上疑问：假如玩家胡乱提问，或者随意投票和点评，该怎么办？网易伏羲当然早就考虑到了这一点并已部署一些应对措施。他们表示，为了验证数据的有效性，网易伏羲进行了大规模的数据分析和实验，综合性地评估了玩家多样性的选择对数据有效性的影响；基于这些实验结果，他们部署了可以滤除无效信息的过滤机制，从而可以保证最终结果的客观和有效。

可以说在如此受欢迎的游戏中开设 AI 大模型竞技场是一项极具开创性的举措。这不仅能展现 AI 技术在实时互动和复杂决策中的潜力，还能推进「AI+娱乐」的边界，为行业探索新的商业模式和创新方向提供灵感。《逆水寒》的这一创举正好在游戏与科技的交汇点上，可为双方都开辟出更多可能性。

在逆水寒的江湖中

AI 已无处不在

AI 娘，或温柔婉约，或直爽洒脱，各擅奇艺，尽展风华。除了她们，你还能在街头巷尾偶遇其他网易自家大模型驱动的 AI NPC。

在汴京的虹桥附近，就有不少 AI NPC 聚集在这里等着玩家们与他们互动。不仅如此，他们之间还能彼此互动。有一次，当我路过此处时，正巧遇见了 AI NPC 孙小溪与僧人弥乐发生了争执。

，时长01:01

此外，这些 AI NPC 也能流畅地回答玩家的离题话题 —— 你甚至能与他们讨论宇宙飞船和人工智能。《逆水寒》为这些角色配置的音色也非常合适，如果以后能配置上实时语音能力，或许还能更加好玩。

据逆水寒介绍，这些 AI NPC 都有自己独特的性格、喜好、目的，会遵循人情世故、大宋律法、江湖法礼、是非善恶等观念和规则。

他们会自主游历江湖，主动结交好友，不断产生新的记忆，反过来迭代进化自己的各种观念…… 比如之前我在虹桥附近向孙皓等 NPC 散播了杭州城郊外有一艘宇宙飞船的（假）消息，后来我遇到「风流先生」时，他竟然主动说起了宇宙飞船，还添油加醋地说那里有陨石。

伴随着 AI NPC 逐渐成长为一个个有着自己思想和情感的「数字生命」，逆水寒的世界也将形成动态发展、自我更新的江湖社会网络。

更令人激动的是，每个人都能为这个社会添砖加瓦。在《逆水寒》，你可以自己捏智能 NPC，并为自己的「自捏江湖友人」量身打造独一无二的外貌与声音。还能根据《逆水寒》独一档的 AI 功能，赋予其智商、情商、性格等「灵魂特征」，令其成为一个「完整的人」，与你一起行走江湖。

除了 AI NPC，在网易伏羲 AI 技术加持下，《逆水寒》中还整合了其它许多 AI 能力，包括 AI 副本队友、AI 捏脸染色、AI 自定义语音、AI 大宋头条、AI 作诗作画、AI 离线玩家、AI 剧组模式、AI 翻拍等等。

，时长00:23

新上线的剧组模式 - 智能翻拍

大宋头条

在《逆水寒》江湖中闯荡一番后，我们的整体感受就是 AI 已经无处不在，并已经深刻嵌入到这个江湖世界的底层叙事和玩法之中。纵观当今的游戏行业，《逆水寒》在「AI+游戏」之路上是走得最激进的游戏，甚至可能没有之一。网易 CEO 丁磊曾表示：「要牢牢抓住 AI 这个百年不遇机遇。」从《逆水寒》以及其它网易系游戏的 AI 浓度来看，网易确实非常努力想要做到这一点并且已经取得了不错的成绩。

前段时间，AI+游戏赛道爆出了几个大新闻：无需游戏引擎，视频模型直出实时交互可玩的游戏 Oasis；谷歌推出了会「自己生长」的《模拟人生》式游戏 Unbounded。然而，与这些仍在实验阶段的项目不同，《逆水寒》选择了一条更贴近玩家的渐进式路径，将 AI 技术无缝融入 MMO 生态，从玩法到体验，全面革新了传统 MMORPG 的可能性。

AI+游戏的前景甚至让伊隆・马斯克也按捺不住了，表示下一步计划是：「创立 AI 游戏工作室，让游戏再次伟大」。但他可能不知道《逆水寒》早已引领在前。据说马斯克发布下面这条推文后，有很多玩家后台私信《逆水寒》：「这下逆子真的遥遥领先了！建国同志没通知马厂长 AI 游戏已经做出来了，而且已经让 MMO 再次伟大了，马厂长进度落后起码快 2 年了。」

引领时代

逆水寒将继续书写 AI+游戏新传奇

《逆水寒》通过 AI 技术的深入应用，正在重新定义游戏世界的边界。从九位 AI 娘的活灵活现，到竞技场玩法的趣味横生，再到无处不在的智能互动，这片江湖早已不只是人的江湖，也是 AI 的江湖。

AI 与游戏的结合不仅仅是娱乐体验的提升，更是一次产业模式的深刻变革。通过 AI 技术，游戏能够更加贴近玩家需求，提供个性化、沉浸式的体验。这种技术与内容的双向驱动，让游戏不再是单纯的娱乐工具，而是一种动态发展的艺术形式。

据我们了解，《逆水寒》游戏中的各式 AI 能力主要由网易伏羲提供支持，并且这些能力也并不局限于这一款游戏。《永劫无间》、《倩女幽魂》、《全明星街球派对》等多款网易系游戏都已上线自己各具特色的 AI 玩法，包括 AI 队友、AI 萌娃、AI 对抗竞赛等。在前些天的 CES 2025 上，英伟达还宣布，将与网易雷火和伏羲实验室合作使用 NVIDIA ACE 技术在《永劫无间手游》PC 版中部署基于本地推理的 AI 队友，其不仅支持实时语音沟通，还能实时观察战场局势并与玩家一起制定战术！

对于 AI 行业来说，游戏基本上已经成为研发和测试 AI 的最主流平台之一。从围棋等棋盘游戏到《毁灭战士》、《星际争霸 II》等视频游戏，在游戏环境中诞生和优化的新技术数不胜数。比如，AlphaGo 不仅改变了围棋的竞技格局，还推动了深度强化学习的发展。又如，OpenAI Five 在《Dota 2》中的出色表现，展现了多智能体合作和长时间决策的能力，又启发了自动化决策和机器人技术的进步。《我的世界》更是早已成为低成本测验各种 AI 技术的平台。前段时间，斯坦福还搭建了一个智能体小镇 Smallville 来研究多智能体交互与人类行为模拟。

AI 行业之外，诺奖级 AlphaFold 是一大经典案例。另一个例子是游戏引擎 Unity 在自动驾驶和机器人开发中的应用。Unity 提供的 AI 训练环境可让开发者模拟不同的物理环境，以便训练和测试智能体，极大助力了机器人导航和决策技术的发展。此外，基于 OpenAI GPT-3 开发的互动式文字冒险游戏《AI Dungeon》也在教育中得到了应用，可帮助学生通过互动式故事提高语言表达能力和创造力，甚至被用作语言学习工具。这样的例子不胜枚举。从数据处理到人机交互，游戏 AI 的技术实践正影响更广泛的社会领域。

未来，当 AI 技术更加成熟，游戏世界可能会成为人类与智能共创的最佳平台。无论是生成独特的故事线，还是构建自适应的虚拟生态，玩家与 AI 的协作将为我们打开通往未知可能性的大门。

江湖未远，未来已来。《逆水寒》的探索也只是起点，属于「AI+游戏」的精彩篇章还在书写之中。

#Multi-matrix Factorization Attention

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

虽然业界已有 MQA、GQA、MLA 等多种注意力机制变体试图解决这一问题，但这些方案要么难以在严格的显存限制下保持理想性能，要么在模型结构上引入额外复杂度，带来巨大的工程挑战和生态兼容性问题。

在近期由阶跃星辰、清华大学等机构完成的论文《Multi-matrix Factorization Attention》中，研究人员提出新型注意力机制架构 —— 多矩阵分解注意力（MFA）及其变体 MFA-Key-Reuse，在大幅降低语言模型推理成本的同时，还实现了性能的显著提升。

链接：https://arxiv.org/abs/2412.19255

实验中，MFA 和 MFA-KR 不仅超越了 MLA 的性能，还在减少了高达 93.7% 的 KV Cache 使用量的情况下，与传统的 MHA 性能相当。于此同时，MFA 实现简单，容易复现，对超参敏感度低，且兼容各种 Pos-embedding。

MFA 方法与分析

研究团队通过研究 Attention 机制的一般性设计和容量分析，明确了 Attention 机制的容量最相关的两个维度，并且提出了一系列的分析方法和设计原则。

为了更好地理解注意力机制的本质，研究团队提出了广义多头注意力（GMHA）的概念框架，为理解不同的 MHA 变种注意力机制提供了一个统一的视角。进一步地，研究团队分别从推理角度研究键值的计算和存储方式，从分解角度探讨模型的容量特征。这种创新的分析方法为理解不同策略如何在模型性能和计算效率之间取得平衡提供了全新视角。

在此基础上，研究者们确立了完全参数化双线性注意力（FPBA）作为理论上的性能上限标准。他们发现，目前广泛使用的 MHA 及其各种变体实际上都可以被视为 FPBA 的低秩分解版本。研究团队在分析现有解决方案时，重点考察了两个代表性的改进方案：多查询注意力（MQA）和多头潜在注意力（MLA）。

对于 MQA，研究人员发现它采用了一种更激进的参数共享策略。不同于 MHA 在头部之间保持独立的参数，MQA 让所有注意力头共享同一组键值参数。这种设计虽然将内存使用降到了极低的水平，但可能会影响模型的表达能力。研究团队指出，这种权衡实际上反映了一个更普遍的设计困境：如何在保持模型性能的同时减少资源消耗。

而对于更新的 MLA 方案，研究人员发现它采用了更为复杂的架构设计。MLA 引入了一个共享的潜在空间，通过在这个空间中进行参数压缩来节省内存。虽然这种设计看似提供了更大的灵活性（因为中间维度可以设置得更大），但研究团队的理论分析揭示了一个关键问题：模型的实际表达能力仍然受限于最小维度的约束，这意味着 MLA 的设计中增加中间维度并不能真正提升模型的性能上限。

在深入分析现有方案的基础上，研究团队提出了一个雄心勃勃的目标：开发一种新的注意力机制，既能最大限度地节省资源，又能尽可能接近理论性能上限。这个目标促使他们开发出了多矩阵分解注意力（MFA）。

MFA 的设计体现了研究团队的三个关键创新：

首先，他们突破传统设计的局限，显著增加了注意力头的数量和维度，极大增加了注意力模块的模型容量。
其次，研究团队在矩阵分解方面实现了创新性突破，采用激进的低秩分解策略，成功地在扩展模型注意力头的数量和维度时保持了极高的参数效率。
最后，研究团队采用单键值头设计，这个设计确保了即使在增加模型复杂度的情况下，内存使用仍然保持在最低水平。

为了进一步分析 MFA 和其他注意力机制的不同，研究团队提供了一个清晰的对比表格。研究人员首先引入两个关键指标来度量 GMHA 系列模型的容量：模型总有效秩 TER （ Total Effective Rank ）和共享隐空间维度 SLSD（Shared latent subspace dim）。总有效秩 TER 定义为注意力头数量与每个头部分解秩（Factorization rank per head，简称 FRH）的乘积，而共享隐空间维度 SLSD 则代表了所有注意力头共同使用的隐空间维度，注意到 TER 和 SLSD 越大，模型具有更高的容量。同时注意到每个头的分解秩（FRH）不超过 SLSD，而 KV Cache 的占用受制于 FRH 和 SLSD 之间的较大值，这构成了容量和效率之间的关键权衡。

通过这个框架进行分析，可以发现与 MQA 相比，MFA 同时实现了更高的 SLSD 和更高的 TER；与 MLA 相比，在相似的参数预算下，MFA 不仅达到了更小的 KV cache 尺寸，还实现了更高的 TER，同时保持了相当的 SLSD；与传统的 MHA 相比，虽然 MFA 的 SLSD 较小，但它的 TER 更高，这解释了为什么在实验中 MFA 能够获得更好的性能。

实验结果

为了研究新架构在可能的更大规模上的表现，研究团队开展了一系列深入的扩展性实验，系统地测试了从 1B 到 7B 参数的不同规模的模型，训练数据量从 10B 扩展到 1T。在性能扩展方面，研究团队的 MFA 方案展现出与传统 MHA 完全相当的扩展能力。这意味着，即使在更大规模下，MFA 依然能保持其优异的性能。而 MFA-KR 虽然在性能上略有降低，但其扩展趋势与 MHA 保持一致。而随着模型规模的增加，MFA 和 MFA-KR 在内存节省方面的优势不仅得到保持，还呈现出进一步扩大的趋势。在最大规模模型上，MFA 实现了 87.5% 的内存节省，而 MFA-KR 更是将内存使用降低到原来的 6.25%。

研究人员还进行了一系列的消融实验，证明 MFA 和 MFA-KR 的设计的有效性，并在其他的主流的位置编码上也验证了 MFA 和 MFA-KR 的性能优势。

展望

MFA 用最简洁的设计带来了最显著的提升，在不增加额外工程复杂度的前提下，优雅地解决了 LLM 的高效推理显存瓶颈问题，并能无缝集成到现有的 Transformer 生态中。这种简单而强大的创新，必将加速大语言模型在更多场景中的落地应用。

#2025 AAAI Fellow公布

港科大（广州）熊辉、华盛顿大学陈一昕等四位华人入选

含金量极高。

AAAI（Association for the Advancement of Artificial Intelligence）是国际人工智能领域最权威的学术组织之一，Fellow 是该学会给予会员的最高荣誉，仅颁给对人工智能做出「非同寻常的卓越贡献者」，而且评价时间以十年计。

由于其评判极其严格，历届 AAAI Fellow 入选会士均为人工智能领域公认的著名学者，每年严格限制入选人数，因此被誉为国际人工智能领域的名人堂。

今天，AAAI 公布了 2025 年度的 Fellow 评选结果，共有 16 位 AI 学者入选，其中有 4 位华人学者。

陈一昕

机构：华盛顿大学
入选理由：因在机器学习领域做出重要贡献，开创了广泛使用的图神经网络架构和轻量级深度神经网络算法。

陈一昕（Yixin Chen）是圣路易斯华盛顿大学计算机科学与工程系的教授。自 2005 年加入该校以来，他一直致力于数据挖掘、机器学习、人工智能和优化领域的研究，曾在 AAAI (2010)、AMIA (2015) 和 IDEAL (2016) 等顶级会议上斩获最佳论文奖。他是《可解释人工智能导论》一书的作者之一。2022 年，陈一昕凭借其研究成果和学术影响力，荣获 IEEE Fellow 的称号。

付昀

机构：美国东北大学
入选理由：在计算机视觉、增强人机交互方面的变革性技术创新，以及在 AI 技术商业化而做出了重大贡献。

付昀（Yun Raymond Fu）既是人工智能专家，又是成功的连续创业者。目前，他是东北大学的杰出教授。他在计算机视觉、增强现实、人机交互等前沿领域做出了开创性贡献，发表了 500 多篇科研论文，拥有 40 多项专利。

他曾四度创业，将先进的 AI 技术应用于化妆品电商、电视广告分析等行业。他领导的初创公司 Giaran 被日本化妆品巨头资生堂收购，获得 5800 万美元风投。他还获得了众多重要奖项，如 IEEE、ACM、IAPR 等会议的 12 项最佳论文奖，以及谷歌、亚马逊、三星、Adobe 等知名企业评选的行业大奖。此外，他已入选 IEEE、AAAI、OSA 等学会的 Fellow。

熊辉

机构：香港科技大学（广州）
入选理由：对人工智能和移动计算领域做出了重大贡献，并开发了广泛使用的 Informer 算法。

熊辉（Hui Xiong）现为香港科技大学（广州）协理副校长，人工智能学域讲座教授（Chair Professor）。熊辉教授长期从事数据挖掘与人工智能方面的科研工作，在 Nature Communications、TKDE、TOIS、KDD、VLDB、AAAI、IJCAI、NeurIPS 等国际顶级期刊和会议上发表论文 400 余篇。

熊辉教授曾任美国罗格斯 - 新泽西州立大学杰出终身教授及百度研究院副院长。他获得的荣誉包括 AAAS Fellow、IEEE Fellow、ACM 杰出科学家、中国人工智能学会会士、2017 IEEE ICDM Outstanding Service Award、ICDM-2011 最佳研究论文奖、AAAI 2021 最佳论文奖等等。

杨明玄

机构：加州大学默塞德分校、 Google DeepMind
入选理由：为视觉跟踪、低级视觉和视觉学习方面做出了重大贡献，提供了广泛使用的基准数据集和开源代码。

杨明玄（Ming-Hsuan Yang）是加州大学电气工程与计算机科学教授，2000 年获得了伊利诺伊大学厄巴纳 — 香槟分校的计算机科学博士学位。他的主要研究兴趣包括计算机视觉、模式识别、人工智能、机器人和机器学习，他在目标跟踪算法评测方面做出了重要贡献，提出了广泛认可的基准数据集。

他曾担任 ACCV 2014 程序共同主席、ACCV 2016 大会共同主席和 ICCV 2019 程序共同主席，此外还担任 ICCV、CVPR、ECCV、NeurIPS、ICLR、AAAI、 IJCAI、WACV、FG 等学术会议的领域主席。

以下是其他 12 位入选今年 AAAI Fellow 的简要介绍：

Maria-Florina (Nina) Balcan
机构：卡内基梅隆大学
入选理由：对机器学习的基础及其在多智能体系统和现代算法设计中的应用做出了重大贡献。
Mohit Bansal
机构：北卡罗来纳大学教堂山分校
入选理由：对多模态 AI 基础以及忠实的语言生成和总结做出了重大贡献。
J. Christopher Beck
机构：多伦多大学
入选理由：对规划和调度、约束规划以及运筹学和人工智能在组合优化中的整合做出了重大贡献。
Emma Brunskill
机构：斯坦福大学
入选理由：对强化学习领域以及社会福利应用，尤其是教育 AI 做出了重大贡献。
Ernest Davis
机构：纽约大学
入选理由：对自动常识推理，特别是空间和物理推理做出了重大贡献，并撰写了向普通观众解释 AI 的著作。
Emilio Ferrara
机构：南加州大学
入选理由：对计算社会科学和在线信息传播与操纵研究做出了开创性贡献。
Gal Kaminka
机构：巴伊兰大学
入选理由：在规划和目标识别、协作多机器人系统以及展示社交智能的多智能体系统方面做出了重大贡献。
Kate Larson
机构：滑铁卢大学
入选理由：在多智能体系统基础以及为更广泛的 AI 社区提供服务方面做出了重大贡献。
Karen Myers
机构：SRI International
入选理由：在 AI 规划领域做出了重大贡献，包括以人为本的规划技术的开发和应用。
Sriraam Natarajan
机构：德克萨斯大学达拉斯分校
入选理由：在统计关系 AI、医疗保健适应以及为 AAAI 社区提供服务方面做出了重大贡献。
Roberto Navigli
机构：罗马大学
入选理由：在多语言自然语言理解以及开发广泛认可的知识资源构建、文本消歧和语义解析方法方面做出了重大贡献。
Balaraman Ravindran
机构：印度理工学院马德拉斯分校
入选理由：在强化学习基础和应用方面做出了重大贡献。

参考内容：

https://aaai.org/about-aaai/aaai-awards/the-aaai-fellows-program/elected-aaai-fellows/

#OpenAI可能已经突破

游戏结束了？跨过起飞的最后临界阈值

OpenAI 的研究达到了可以自我递归改进的程度？

刚刚，X 上的一则帖子爆火，浏览量达到 30 多万。

该推文涉及引领 AI 潮流的 OpenAI。内容显示「OpenAI 递归式自我改进目前在一个盒子里，准确的说是在一个无法破解的盒子！」

我们不难看出，帖子内容突出了 OpenAI 的发展态势，AI可以自我改进，并且很难有人短期内破解。还有一则帖子表示：

「OpenAI 可能已经获得了突破，并最终跨越了临界点，达到一个起飞状态 —— 即智能达到了可以自我递归改进的程度，o4 或 o5 将能够自动化 AI 研发并完成其余工作。

像 o1 这样的模型的大部分意义不在于部署它，而在于为下一个模型生成训练数据。o1 解决的每一个问题现在都是 o3 的训练数据点。

实际上我们有点惊讶于 OpenAI 竟然费心的部署了 o1-pro，而不是将其保持私密并投资计算资源进行更多的 o3 训练等。这显然与 Anthropic 和 Claude-3.6-opus 的开发不同，这个模型没有研发失败，只是 Anthropic 选择将其保持私密，并将其蒸馏成一个小而便宜但很智能的 Claude-3.6-sonnet。

如果你想知道为什么 OpenAI 的人突然在 X 上变得几乎是狂喜地乐观，认真观察从原始 4o 模型到 o3 的改进可能就是原因。

这就像观看 AlphaGo 的 Elo 曲线：它只是不断 up……up……up……

这给我们一种感觉，他们已经获得突破，终于跨越了临界点，即从仅仅是尖端 AI 工作（其他机构将在几年内才能复制），到起飞（破解智能），以至于 o4 或 o5 将能够自动化 AI 研发并完成其余工作。」

在这条推文下，大家的讨论格外热烈。

有人表示「如果这是真的，如果模型不需要人类进行训练，那么《黑客帝国》的结果就不再有效了。」

「我一直是这么想的，OpenAI 没有向公众发布他们最新的优秀模型，他们总是在内部领先 1 或 2 代，因为这为他们提供了开发优势。」

「也许最可怕的不是上述观点是否正确，而是我们无法判断他是否错误。」

就连 OpenAI 研究员 Jason Wei 也跑到评论区发言：魔法，就是当一个不可阻挡的强化学习（RL）优化算法，在充足的计算资源驱动下，遇到一个无法被攻破的强化学习环境时，奇迹就发生了。

Andrej Karpathy 也发表了自己的观点：魔法就是当优化技巧破解了那个环境时，就会出现。

对于上述观点，你怎么看，欢迎评论区留言。

参考链接：

https://x.com/AISafetyMemes/status/1879624959934497078

https://x.com/AISafetyMemes/status/1879938756334977117

#Uni-AdaFocus

视频理解框架，让AI学会「划重点」，计算效率提升4-23倍！

本文介绍刚刚被 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用的一篇文章：Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition，会议版本 AdaFocus V1/V2/V3 分别发表于 ICCV-2021 (oral)、CVPR-2022、ECCV-2022。

论文链接：https://arxiv.org/abs/2412.11228
项目链接：https://github.com/LeapLabTHU/Uni-AdaFocus

Uni-AdaFocus 是一个通用的高效视频理解框架，实现了降低时间、空间、样本三维度冗余性的统一建模。代码和预训练模型已开源，还有在自定义数据集上使用的完善教程，请访问项目链接。

Uni-AdaFocus 的关键思想与设计思路在于，它建立了一个统一的框架，实现了降低时间、空间、样本冗余性的统一建模，并且使用一些数学方法处理了时空动态计算不可微分的问题，可以方便地进行高效端到端训练，无需强化学习等更为复杂的方法。

具体而言：

降低时间冗余性：动态定位和聚焦于任务相关的关键视频帧；
降低空间冗余性：动态定位和聚焦于视频帧中的任务相关空间区域；
降低样本冗余性：将计算资源集中于更加困难的样本，在不同样本间差异化分配；

在长视频理解上，Uni-AdaFocus 比现有最好的同类 baseline 加速了 5 倍。它可以兼容于现有的高效 backbone，利用动态计算的思想进一步提升其效率，例如将 TSM 和 X3D 各自加速了 4 倍左右。在上述加速情形中，Uni-AdaFocus 基本上都在加速的同时实现了比较显著的准确性提升。

在 7 个学术数据集（ActivityNet, FCVID, Mini-Kinetics, Sth-Sth V1&V2, Jester, Kinetics-400）和 3 个应用场景（使用脑 MRI 诊断阿尔兹海默症和帕金森综合征、细粒度跳水动作识别、互联网不良视频检测）上进行了验证，Uni-AdaFocus 发挥稳定，特定典型情况下可实现多达 23 倍的（性能无损）推理加速或高达 7.7% 的准确性提升。

在 CPU/GPU 实测速度、吞吐量上，Uni-AdaFocus 与理论结果高度一致。

接下来，我们一起来看看该研究的细节。

研究背景和动机

相较于图像，视频理解是一个分布范围更广、应用场景更多的任务。例如，每分钟，即有超过 300 小时的视频上传至 YouTube，超过 82% 的消费互联网流量由在线视频组成。

自动识别这些海量视频中的人类行为、交互、事件、紧急情况等内容，对于视频推荐、视频监控、智能编辑与创作、教育与培训、健康医疗等受众广泛的应用具有重要意义。

同时，面向视频数据的视觉理解技术在具身智能、自动驾驶、机器人等物理世界的实际场景中也有广泛的应用空间。

近年来，已有很多基于深度神经网络的视频理解算法取得了较佳的性能，如 TSM、SlowFast、I3D、X3D、ViViT 等。然而，一个严重的问题是，相较于图像，使用深度神经网络处理视频通常会引入急剧增长的计算开销。如下图所示，将 ResNet-50 应用于视频理解将使运算量（FLOPs）扩大 8-75 倍。

因此，一个关键问题在于，如何降低视频理解模型的计算开销。一个非常自然的想法是从视频的时间维度入手：一方面，相邻的视频帧之间往往具有较大的相似性，逐帧处理将引入冗余计算。另一方面，并非全部视频帧的内容都与理解任务相关。现有工作大多从这一时间冗余性出发，动态寻找视频中的若干关键帧进行重点处理，以降低计算成本，如下图第二行 (b) 所示。

然而，值得注意的一点是，该团队发现，目前尚未有工作关注于视频中的空间冗余性。具体而言，在每一帧视频中，事实上只有一部分空间区域与任务相关，如图中的运动员、起跳动作、水花等。

受此启发，该团队提出了 AdaFocus 方法来动态定位每帧中的任务相关区域，并将最多的计算资源分配到这些区域以实现高效处理，如上图第三行 (c) 所示。

以 AdaFocus 为基础，该团队进一步实现了时间、空间、样本三个维度的统一动态计算，提出了一个通用于大多数骨干网络（backbone）的 Uni-AdaFocus 框架。

Uni-AdaFocus 能够自适应地关注于视频中任务相关的关键帧、关键帧中任务相关的重要区域、以及将计算资源更多地分配给更为困难的样本，如上图第四行 (d) 所示。

模型简介

如上图所示，Uni-AdaFocus 首先使用全局编码器 f_G（轻量化的特征提取网络，例如 MobileNet-V2 等）用低成本对均匀采样的视频帧进行粗略处理，获得视频整体的时空分布信息，即全局特征。

一个策略网络 π 基于 f_G 提取的全局特征自适应地采样关键帧以及其中的关键区域，得到值得关注的 patches，patch 的形状和大小根据视频帧的具体特性自适应地决定。局部编码器 f_L（参数量大的大容量神经网络，准确率高但计算开销较大）仅处理策略网络 π 选择出的 patches，即局部特征。

最后分类器 f_C 逐帧聚合全局特征和局部特征以得到最优的视频理解结果，同时通过早退机制实现对样本维度计算冗余性的建模。

关于 Uni-AdaFocus 模型设计和训练方法的更多细节，由于比较繁杂，可以移步参阅论文。

实验结果

使用 MobileNet-V2 和 ResNet-50 为 backbone， Uni-AdaFocus 在 ActivityNet，FCVID 和 Mini-Kinetics 上的实验结果，以及与现有最佳同类方法的比较。

蓝色文字表示基于 baseline 模型的提升幅度

使用 MobileNet-V2-TSM 和 ResNet-50-TSM 为 backbone，Uni-AdaFocus 在 Something-Something-V1 / V2 和 Jester 上的实验结果。

使用 X3D-S 和 X3D-L 为 backbone，Uni-AdaFocus 在 Kinetics-400 上的实验结果。

Uni-AdaFocus 在 3 个应用场景（使用脑 MRI 诊断阿尔兹海默症和帕金森综合征、细粒度跳水动作识别、互联网不良视频检测）上的实验结果。

Uni-AdaFocus 的可视化结果。所示的视频帧为 Uni-AdaFocus 所选取的任务相关帧，浅蓝色方块表示 Uni-AdaFocus 在每一帧选择的 patch。可以看到 Uni-AdaFocus 成功定位到任务相关视频帧中的任务相关区域，例如长笛、小狗、圣诞树、马术运动员等，并能自适应地调整 patch 的大小和形状、以及任务相关视频帧的数目。

#黄仁勋「看中」的14款人形机器人，国产机器人胜算几何？

近日，英伟达 CEO 黄仁勋在 CES 2025 的一场主题演讲中提到，「机器人技术领域，特别是人形机器人和通用机器人技术，即将迎来 ChatGPT 时刻般的突破。」在演讲中，黄仁勋公布了英伟达新推出的世界基础模型开发平台 Cosmos，并展示了加入 Cosmos 平台的 14 款人形机器人，其中近一半来自国内机器人公司。

本篇解读详细地盘点了 14 款人形机器人的基础参数信息、主要适用场景、核心亮点（相较于其他人形机器人不同的地方）、商业化情况以及背后的核心技术路线等情况。

01. 为何实现「通用人形机器人」如此重要？机器人的 ChatGPT 时刻真的来了吗？

机器人技术一旦实现通用性意味着什么？最适合通用具身智能的形态会是人形吗？要想迎来通用机器人领域的「GPT」时刻，哪些因素才是核心关键？

02. 老黄选中的 14 款人形机器人：国产机器人梯队的胜算如何？海外机器人梯队情况如何？

黄仁勋展示的 14 款人形机器人都是什么「来头」？国产机器人厂商「突飞猛进」，占据近一半？国内外的各家机器人在技术路线上有何差异？

03. 老黄没带上台的机器人种子选手还有哪些？

在 CES 2025 展会上，还有哪些值得关注的机器人？

01 为何实现「通用人形机器人」如此重要？

1、黄仁勋认为通用机器人技术的重要性在于，能够创造出无需特殊环境即能适应「棕色地带」的机器人。同时，黄仁勋还在演讲中指出了未来对世界产生重要影响的三类机器人，分别为自主机器人、自动驾驶汽车和人形机器人。

2、实现机器人的「通用」非常重要。深度学习强化领域的大牛 Pieter Abbeel 曾表达机器人通用性的重要，「当机器人能够适应不同环境时，就会发生重大变革。」

① 传统的机器人需要针对特定的环境、任务，用某种固定的动作序列对机器人进行编程，只针对于结构化的环境有效。而当下，业内追求的通用机器人，能够在一个未设定具体规则、一切皆可变化的开放环境中解决问题。

3、同时，基于人形是否是最适合实现通用具身智能的形态，仍存在一些争议。清华大学交叉信息研究院院长姚期智认为，人形是最适合实现通用具身智能的形态。目前只有人类本身达到了真正的通用具身智能，因此人形机器人被视为最好的通用具身智能体。

4、据麦肯锡近期发布的一份报告预测，机器人行业的收入到 2040 年将增长至 1900 - 9100 亿美元，年均增长率高达 13%至 23%。机器人领域的潜力不言而喻。

5、同样，黄仁勋在其近 1 个半小时的 CES 2025 主题演讲上，重点讲到了对于「Physical AI」的看法。在此期间，黄仁勋公布了英伟达新推出的世界基础模型开发平台 Cosmos，并展示了加入 Cosmos 平台的 14 款人形机器人，其中有 6 款来自国内的机器人公司，8 款来自国外的机器人公司。

14 款人形机器人的基础情况一览：

02 机器人的 ChatGPT 时刻真的来了吗？

黄仁勋在演讲中提到，「机器人正在进入 ChatGPT 时刻」。但距离通用机器人领域的「GPT」时刻真的来临，还面临着几点需要克服的「关键难题」。

1、首先，是机器人的「大小脑」的大模型的架构还没有统一，各家仍在探索中，如大语言模型的技术路径、模仿学习与深度强化学习的技术路径以及空间模型的技术路径等。目前，尚没有哪条技术路径表现出明显的优势性。

① 具体而言，目前较为常见的架构主要有两种。一是将大语言多模态模型直接应用于机器人，并在此基础上增加一部分机器人底层的操作运动集等，使大语言模型能够进行调用，以完成相应任务，这已成为目前最为普遍的架构形式；二是如特斯拉等公司追求的更为端到端的解决方案，采用模仿学习的方式，通过人为采集大量的动作数据来训练机器人。但该方法的「scling law」还没有得到验证。

2、其次是，目前机器人的泛化性较差 ......

03 老黄选中的 14 款人形机器人，国产机器人梯队的胜算如何？

此次在 CES 2025 主题演讲上，出现在黄仁勋身边的 14 款人形机器人中，有 6 款机器人来自国内的机器人厂商。

远征 A2（智元机器人）

1、「远征 A2」是由智元机器人于 2024 年 8 月推出的一款智能交互服务机器人，主要场景适用于营销客服、展厅讲解、商超导览、前台接待、业务咨询等。8 月，与「远征 A2」同时发布的远征系列机器人还有「远征 A2-W」和「远征 A2-Max」两款，适用于柔性智造、重载特种作业等场景。

2、「远征 A2」全身具备超过 40 个主动自由度的关节和仿人的灵巧双手，能够模拟出丰富和复杂的人类工作。同时拥有一个可以持续学习的大脑，由大语言模型加持。此外，还具备多模态的感知，输入系统，可以通过视觉感知交互者的情绪。

① 在语音交互方面，远征 A2 机器人采用了语言大模型+RAG 构建企业定制业务知识库......

#o3-mini几周内发布，奥特曼表示AGI只需872兆瓦计算功率

昨天，我们报道了一个行业猜想，说是 OpenAI 和 Anthropic 等前沿大模型公司可能已经训练出了下一代大模型，但由于它们的使用成本过高，所以短时间内根本不会被放出来。但是，为了响应用户期待，OpenAI 和 Anthropic 等公司会不断放出一些基于下一代大模型蒸馏得到的较小模型。更多分析请参阅文章《GPT-5、 Opus 3.5 为何迟迟不发？新猜想：已诞生，被蒸馏成小模型来卖》。

有意思的是，就在这篇文章发布后不久，OpenAI CEO 山姆・奥特曼就在 𝕏 上宣布将在「几周内」发布 o3-mini，并且这一次会同时发布 API 与网页端。从名字也能看出来，o3-mini 应该就是某个大模型的蒸馏版，这似乎也映证了上面的猜想。

另据 OpenAI 研究科学家 Hongyu Ren 透露，他们会同时发布 o3-mini 的 high、medium、low 三个版本。

当然，严格来说，这并不算是一个新闻。早在上个月 21 日，OpenAI 十二天连发的最后一天，奥特曼就提到过计划在一月底左右推出 o3-mini，并在不久后推出完整的 o3 模型。更多详情可访问《刚刚，OpenAI 放出最后大惊喜 o3，高计算模式每任务花费数千美元》。

这条推文之后，奥特曼又积极地回答了许多网友的提问，为我们揭示了更多细节。

首先，奥特曼证实 o3-mini 的性能表现会逊于 o1-pro，但速度会更快。

这一点着实让不少网友失望，因为从这个描述看，o3-mini 可能也就比 o1-mini 强一点。

但其实，OpenAI 此前就已经公布过相关基准数据了，所以这一点倒并不让人惊讶。比如在 Codeforces 编程基准上，o3-mini (low) 性能不及 o1，high 版本会好一些，但整体都更具成本效益，这使其非常适合用来编程。

OpenAI 的 Dylan Hunn 也强调了 o3-mini 在编程速度上的优势。

或许是为了安抚大家的情绪，奥特曼又抬出了 o3，表示这个版本会比 o1-pro 聪明得多，更别提 o3-pro 了。同时，他也表示 o3-pro 的定价不会是一个月 2000 美元起，200 美元的 Pro 订阅者应该就能获得一定的使用额度。

至于 o3-mini 的使用额度，奥特曼只是说「真的高」，从上下文看应该会比 o1 系列的高一些。

奥特曼也表示 o3-mini 会向 ChatGPT Plus 订阅者提供，并不限于 200 美元月供的 Pro 用户。

另外，奥特曼也谈到了 GPT 系列与 o 系列模型品牌融合的问题。看起来，这个融合行动就将在今年发生！

AGI 需要 872 兆瓦的计算功率

除了与 o3-mini 相关的问题，奥特曼也解答了一个与 AGI 相关的提问。当然，他的答复已经不是第一次出现了：AGI 可以实现，并且需要 872 兆瓦的计算功率。作为参考，美国目前最大的核电站 Alvin W. Vogtle 发电站的装机容量为 4536 兆瓦，理想情况下也顶多仅能供养 5 个这样的 AGI。不过话也说回来，872 兆瓦这个数据着实精确得让人惊讶。

那我们目前实际上已经到哪一步了呢？根据 situational-awareness.ai 的估算，目前 AI 的功率应该差不多就在这个水平。

看起来，OpenAI 确实很有可能已经开发出了下一代模型，甚至有可能达到了 AGI 等级 —— 当然，这得取决于 OpenAI 对 AGI 的具体定义。事实上，已经有人根据所谓的内部消息在暗示这一点了。

对此，你有什么看法呢？

参考链接

https://x.com/sama/with_replies

https://en.wikipedia.org/wiki/List_of_largest_power_stations_in_the_United_States

https://situational-awareness.ai/racing-to-the-trillion-dollar-cluster/

#「完美的搜索引擎」是否存在

你需要一群拒绝接受现状的人，并为之努力多年，直到一个抽象的愿景变为现实，即使其他人都不理解。

你每天都在用的搜索引擎，可能并不完美。

大型语言模型（LLMs）能够解决研究生水平的数学问题，但今天的搜索引擎却无法准确理解一个简单的三词短语。例如，如果你在谷歌图片中搜索「shirts without stripes」（没有条纹的衬衫），结果却几乎全是有条纹的衬衫。

图源：https://x.com/sur4js/status/1876773163222130719

如何才能打造一个完美的搜索引擎，AI 初创公司 Exa 的 CEO Will Bryk 亲自撰写了一篇文章来回答这个问题。

Will Bryk 表示 Exa 的目标是打造一个比谷歌更好的搜索引擎，一个能够像 LLM 那样真正理解你的搜索引擎。

随着公司的发展和 LLM 技术的进步，Exa 的目标也在不断升级，他们不再仅仅满足于打造比谷歌更好的搜索引擎，而是希望打造一个完美的搜索引擎。

一个完美的搜索引擎对世界的帮助可能比人们想象的还要大。而 Exa 是目前全球唯一一个致力于实现这一目标的组织。

以下是 Will Bryk 博客内容。

当前的搜索生态系统

尽管近年来关于 AI 搜索的炒作很多，但搜索引擎本身并没有真正改变。

谷歌搜索和必应搜索仍然与十年前非常相似。当你输入一个查询，比如「shirts without stripes」（没有条纹的衬衫），它们会将你查询中的关键词与网络上的所有文档进行匹配。然而这种搜索方式在这里失败了，因为「without stripes」（没有条纹）超越了关键词匹配的理解能力。

虽然搜索算法没有改变，但所有关于 AI 搜索的炒作都来自于 AI 摘要的引入。谷歌 AI overview、SearchGPT、Perplexity—— 这些产品背后都使用了像谷歌或必应这样的传统搜索引擎，然后利用 LLM 生成摘要。

LLM 生成的摘要很简洁，为我们节省了时间。但不幸的是，LLM 仍然受限于底层搜索引擎的质量。如果必应找不到某些内容，那么依赖必应的 SearchGPT 也无法找到。因此，今天的 AI 搜索主要是一个节省时间的工具，而不是一个真正更好的搜索引擎，能够找到我们以前找不到的东西。

我记得在 2021 年，当我告诉我父亲我正在构建一个新的搜索引擎时，他回答说：谷歌还不够好吗？

我的回答是它还不够好。谷歌的传统搜索算法对于简单的查询非常有效 —— 比如「Taylor Swift boyfriend」（泰勒・斯威夫特的男朋友）或「Walmart homepage」（沃尔玛主页）。但一旦查询变得复杂，它就会彻底失败 —— 比如「phds in the Bay area who've written about flying cars」（在湾区写过飞行汽车相关文章的博士）。

如果你曾经去 LinkedIn 找人、去 X（原 Twitter）找有趣的文章，或者向朋友打听好的初创公司，那么在你意识里肯定觉得谷歌还不够好，因为你没有选择谷歌来获取这些信息。但这很荒谬，因为这些本质上都是对网络信息的搜索，而 2025 年的搜索引擎应该能够正确处理它们。

问题不在于谷歌没有索引到所有这些信息 —— 事实上，谷歌已经索引了几乎所有网页（大约一万亿页）。问题在于谷歌的算法从根本上并不是为在一万亿页面上处理复杂搜索而设计的。

但现在，已经存在能够近乎完美地处理复杂请求的 AI 系统。我们对搜索引擎也应该有同样的期待。世界值得拥有一个完美的搜索引擎。

你需要一个完美的搜索引擎

一个完美的搜索引擎是能够找到你想要的任何信息，无论你的请求有多么复杂。

它是人类集体知识的数据库，能够实时按照你的需求完全组织起来。

然而这样的搜索引擎还不存在，不过我们可以先展示一些酷炫示例来说明完美搜索是什么样子的：

相似想法搜索

假设你有一个想法，并希望在网上找到类似的想法。目前使用传统搜索引擎是不可能做到这一点的。例如，我有一个关于利用车顶充电的飞行汽车的想法，我想找到数百篇讨论这一想法的文章、推文、YouTube 视频和专家，而不是一些与之无关的内容。谷歌在这方面完全失败了，因为这种搜索需要真正的理解。如果我有一个能够基于精确语义匹配内容的完美搜索引擎，我就能立即找到所需的一切。

对人的搜索

我们人类一直在寻找其他人以建立友谊、合作和社区。但我们这个先进社会所构建的最好的人脉搜索工具之一是 LinkedIn。然而，互联网上的信息远比这丰富得多。有了完美搜索，你应该能够找到任何你要找的人。如果我是正在研究 AI 对齐（AI alignment）的本科生，我应该能够轻松找到「那些抽出时间研究 AI 对齐并有博客的本科生」。试试在谷歌上搜索这个，看看你会得到什么结果。完美的 web 搜索将把混乱的网络转化为比 Meta 或 X 更强大的社交网络。

多模态搜索

网络上包含了数十亿的视频、图片和歌曲，但由于我们无法很好地搜索它们，这些内容的大部分价值都被埋没了。例如，我真的很喜欢那些人们为世界做出某种自我牺牲的视频片段。YouTube 搜索在这方面表现得很糟糕。一个完美的搜索引擎应该能够找到你想要的任何媒体，无论你的搜索有多么复杂。

完美控制

谷歌对搜索结果提供了很少的控制。一般来讲，你会输入几个关键词并希望搜索引擎能够很好地理解你。你从来不会想到输入一个长句子来准确解释你想要什么，因为你知道那样行不通。完美的搜索让你可以添加任何你想要的过滤器，而且它总是有效的。如果你在寻找要雇佣的人，你将能够添加诸如「曾在初创公司工作过」的修饰词，像「既懂 Rust 又懂 C++」这样的复杂连接词，以及「没有在这些学校学习过」的否定条件。网络将感觉像是一个数据库，你可以根据自己的意愿任意过滤。

全面性

我们每个人几乎对所有事物的理解都是不完整的。无论你是在寻找公司、博客文章、人物、产品还是论文等，Google 都会为你提供一小部分结果，与此同时，你会错过其他内容。完美搜索解决了这个问题 - 如果世界上有 387 个实体符合你的条件，你应该能够找到所有 387 个。不是 10 个，不是 389 个，而是 387 个。正是你所要求的。完美搜索将让我们所有人对我们的世界有完整的了解。

智能体 + 完美搜索

完美搜索最强大的地方在于它不是与人类配对，而是与基于 LLM 的智能体（ 2025 年推出）配对。人类与 LLM 聊天，LLM 在后台进行智能体搜索，这个过程可能进行了数百次搜索。

作为最后一个例子，想象我有一个关于飞行汽车如何利用城市基础设施的想法。我让 LLM 生成一份报告，列出我可以采取的所有措施来实现这一目标。

LLM 首先在网络上搜索所有类似的想法，包括帖子、推文、研究论文、新闻文章、视频等。对于每个想法，LLM 会找到网络上最好的反驳意见（如果存在的话）。然后，LLM 基于所有这些想法创建一个全面、逐步的计划。接着，针对计划中的每一步，LLM 会在我所在的城市中找到能够帮助实施该步骤的人，从供应商到独立研究人员。LLM 会收集那些公开信息可用的联系信息，并为每个人创建一条个性化的消息。

有了 LLM + 完美搜索功能，只需几分钟就能制定出一个全面的行动计划。而如果只有 LLM + 传统搜索，这将永远无法完全实现 —— 我将永远只知道所有相关想法和人员中的一小部分，我的飞行汽车想法也将永远无法实现。

为什么完美搜索很重要

我们很难预测完美搜索将被使用和集成到工具中的方式。

我甚至可以说，人类的未来取决于能否正确实现这一点。因为我们所消费的信息对我们有着巨大的影响力。它决定了我们所知道的内容，进而决定了我们如何思考，最终决定了我们如何行动。

目前，世界上的信息完全是一团糟。每天都有大量的内容像消防水带一样涌向世界，没有任何组织性。

尽管人工智能取得了诸多进展，但我们依赖的主要信息工具仍然是谷歌、社交媒体和主流媒体。这些工具都无法也不致力于提供全面、无偏见、高质量的世界理解。

我们需要修复信息生态系统，以便我们能够作为一个信息灵通的物种度过下一个十年。

完美搜索从定义上就是我们信息生态系统的解决方案，因为它让每个人都能完全控制世界的信息 —— 我们的信息 —— 使其易于消化、清晰可读、有用且可操作。

目前没有人构建完美搜索，这就是为什么 Exa 正在构建它。

那么，为什么还没有人构建出一个完美的搜索引擎呢？原因有三 —— 金钱、技术和疯狂。

要构建完美的搜索引擎，你需要一个具有正确财务激励的组织。谷歌每年通过搜索广告赚取 2000 亿美元。完美的搜索不会为谷歌带来更多广告收入 —— 甚至可能减少收入。而 Exa 通过 API 使用和订阅赚钱，有强烈的动力去改进搜索，直到它变得完美。

要构建完美的搜索引擎，你需要使用新颖的神经方法重新设计搜索算法，而不是关键词方法。传统的搜索引擎是在二十年前设计的，当时计算机还无法思考。神经搜索引擎更加混乱和不可预测，但随着时间的推移，它们将胜过传统搜索引擎。大型公司不会构建神经搜索引擎，因为它们的基础设施和产品都是围绕旧范式构建的。而对于新玩家来说，开发所需的机器学习架构和网络规模基础设施相当困难。Exa 有自由、经验，现在还有资源，可以从头开始以正确的方式构建搜索算法。

要构建完美搜索引擎，你需要有点疯狂。自 2021 年我们成立公司以来，几乎所有人都认为我们在做的事情是疯狂的。「搜索有什么问题？谷歌还不够好吗？」你需要一群拒绝接受现状的人，并为之努力多年，直到一个抽象的愿景变为现实，即使其他人都不理解。这就是 OpenAI 在智能领域所做的，也是我们打算在知识领域做的事情。

原文链接：https://exa.ai/blog/perfect-search

#用了一个月后发现，Devin是真不好用

与 Devin 合作一个月后，这些研究者给出了不太乐观的反馈。

在 AI 编程领域，你可能听说过 Devin，它是由初创公司 Cognition 发布的一项成果。Devin 就像一个超级智能助手，能帮助工程师更快更好地完成工作，发布之初，很多人都称赞 Devin 是全球首位 AI 软件工程师。它似乎具备从学习新技术、调试成熟代码库，到部署完整应用程序，甚至训练 AI 模型的全方位能力。

然而，事实真的如此吗？答案是：未必。近日，来自新型 AI 研发实验室 Answer.AI 的研究者就记录了他们使用 Devin 翻车的情况。

他们还为此写了一篇博客《与 Devin 共度一个月的感想》，文章详细记录了他们在给 Devin 超过 20 项任务之后获得的感受。

博客链接：https://www.answer.ai/posts/2025-01-08-devin.html

以下是博客内容：

简单任务表现尚可

第一个任务很简单但真实：将数据从 Notion 数据库拉取到 Google Sheet。Devin 以令人惊讶的能力完成了这项任务。它浏览了 Notion API 文档，了解需要什么，并指导我在 Google Cloud Console 中设置必要的凭证。它没有只是转储 API 说明，而是带领我完成每个菜单和按钮点击 —— 这通常会节省繁琐的文档搜索时间。整个过程大约花了一个小时（但只有几分钟人工交互）。最后，Devin 分享了一个链接，链接到一个格式完美的 Google Sheet，其中包含我们的数据。

它生成的代码有点冗长，但可以运行。这感觉像是一个展望未来的场景 —— 一个可以处理消耗大量开发人员时间的「胶水代码」任务的 AI。Johno 使用 Devin 创建了一个行星跟踪器，用于揭穿有关木星和土星历史位置的错误说法，也取得了类似的成功。令人印象深刻的是，他完全通过手机就做到了这一点，Devin 处理了设置环境和编写代码的所有繁重工作。

致命问题：在不可能完成的任务上浪费时间

在早期的成功基础上，我们依赖 Devin 的异步能力。我们想象让 Devin 在会议期间编写文档，或者在我们专注于设计工作时调试问题。但随着我们扩大测试范围，问题出现了。看似简单的任务往往需要几天而不是几个小时，Devin 会陷入技术死胡同或产生过于复杂、无法使用的解决方案。

更令人担忧的是，Devin 倾向于推进实际上不可能完成的任务。当被要求将多个应用程序部署到单个 Railway 部署中（Railway 不支持这一点时），Devin 没有识别到这个限制，而是花了一天多的时间尝试各种方法，并幻想不存在的功能。

最令人沮丧的不是失败本身 —— 所有的工具都有局限性 —— 而是我们花了多少时间试图挽救这些尝试。

深入了解哪里出了问题

在探索过程中让我们感到困惑的是，Devin 能够熟练地处理 API 集成并构建功能性的应用程序，但却在一些看似更简单的任务上遇到了困难。

我们开始怀疑是自己的运气不好，还是使用方法有误。为了回答这一问题，在接近一个月的时间里，我们系统地记录了对以下几类任务的尝试：

从零开始创建新项目
执行研究任务
分析和修改现有项目

结果令人震惊，在 20 项任务中，Devin 有 14 次失败，3 次成功，3 次结果不确定。

更令人担忧的是，我们无法找出任何规律来预测哪些任务会成功，甚至那些与早期成功案例相似的任务，Devin 都会以意想不到的方式失败。

下面是我们在几类任务上的一些经验总结。

从零开始创建新项目

从零开始创建新项目是 Devin 的强项。毕竟，Devin 最初的演示视频就展示了其能自主完成 Upwork 任务的场景。然而，现实却更加复杂。

这里，我们尝试了一个可观测性平台集成的项目。任务很明确：生成合成数据并上传。然而，Devin 并没有提供一个简洁的解决方案，而是生成了一堆代码 soup—— 层层抽象使得简单的操作变得不必要的复杂。

我们最终放弃了 Devin，转而使用 Cursor 进行逐步构建集成，结果证明效率要比 Devin 高得多。

类似地，我们还进行了其他尝试，比如当要求 Devin 在 AI 笔记工具和 Spiral.computer 之间创建集成时，Devin 生成的代码被我们其中的一员形容为「意大利面条式的代码，阅读起来比从头开始编写更令人困惑。」。测试后我们发现，尽管 Devin 可以访问两个系统的文档，但它似乎让集成的每个方面都变得过于复杂。

不过，最能说明问题的是让 Devin 进行网页抓取。我们要求 Devin 跟踪 Google Scholar 的链接并抓取某位作者最近的 25 篇论文 —— 这一任务使用 Playwright 等工具应该是非常简单的。

考虑到 Devin 具备浏览网页和编写代码的能力，这应该是特别容易实现的。然而，它却陷入了一个无休止的 HTML 解析循环中，无法从自己的混乱中解脱出来。

研究任务

如果 Devin 在具体的编码任务上表现不佳，或许它在研究任务上会表现得更好？

然而，结果充其量也只能说是喜忧参半。虽然它能够处理基本的文档查找，但对于更复杂的研究任务却颇具挑战性。

比如，当我们要求 Devin 完成带有准确时间戳的转录摘要时 ——Devin 只是重复了一些与核心问题无关的信息，而没有真正解决问题。具体而言，Devin 没有探索潜在的解决方案或识别关键的技术挑战，而是提供了一些不涉及根本问题的通用代码示例。

即使 Devin 看起来在取得进展，结果往往也不尽如人意。例如，当要求 Devin 创建一个最小化的 DaisyUI 主题时，它生成了一个看似可行的解决方案。然而，经过仔细检查，我们发现这个主题实际上并没有起到任何作用 —— 我们所看到的颜色来自默认主题，而不是我们的自定义设置。

分析和修改现有代码

Devin 最令人担忧的失败可能出现在处理现有代码库时。这些任务需要理解上下文并与现有模式保持一致 —— 这些技能本应是 AI 软件工程师的核心能力。

我们尝试让 Devin 处理 nbdev 项目的经历尤其具有启发性。当要求将一个 Python 项目迁移到 nbdev 时，Devin 甚至无法掌握基本的 nbdev 设置，尽管我们为其提供了全面的文档访问权限。更令人困惑的是它处理 notebook 的方式 —— 它没有直接编辑 notebook，而是创建了 Python 脚本来修改它们，为简单的任务增加了不必要的复杂性。虽然它偶尔会提供一些有用的注释或想法，但它生成的代码却始终存在问题。

安全审查也暴露了类似的问题。当我们要求 Devin 评估一个 GitHub 仓库（不到 700 行代码）的安全漏洞时，它反应过度，标记了大量误报，甚至虚构了一些不存在的问题。这种分析可能更适合通过一次简单的、有针对性的 LLM 调用来完成，而不是 Devin 这种更复杂的方式。

在调试任务中，这种模式依然存在。当调查 SSH 密钥转发在设置脚本中为何不起作用时，Devin 只专注于脚本本身，从未考虑问题可能出在其他地方。类似地，当要求添加用户输入与数据库值之间的冲突检查时，一位团队成员花了几个小时研究 Devin 的尝试，最终放弃，并在大约 90 分钟内自己完成了该功能的编写。

团队感受：没有什么场景让人真正想用 Devin

经过一个月的密集测试，我们的队员说出了以下感受：

「它可以完成的任务是那些非常小且定义明确的任务，我用自己的方式可能能更快完成。那些有望节省时间的复杂任务，它又很有可能失败。所以没有什么特定场景让我感觉真的想用它。」——Johno Whitaker

「一开始，我对它如此接近我想要的样子感到很兴奋，因为我感觉我只需要调整一些小地方。然后，随着我不得不改动越来越多的地方，我逐渐变得沮丧，最终发现我还不如从头开始，一步一步来得更妥当。」——Isaac Flath

「Devin 在使用 AnswerAI 的关键内部工具时遇到了困难，此外还有其他一些问题，使得这个工具很难使用。尽管我们为 Devin 提供了大量的文档和示例，但它仍然遇到了这样的问题。而在使用像 Cursor 这样的工具时，我就没有发现这种问题。在使用 Cursor 时，有更多机会可以逐步地、一点一点地引导事情朝着正确的方向发展。」——Hamel Husain

与 Devin 的情况相对比，我们发现那些更多由开发者主导的工作流程（比如像 Cursor 这样的工具所采用的流程）能够避开我们与 Devin 合作时所遇到的大部分问题。

结论

与 Devin 合作展示了自主 AI 开发渴望成为什么样子。用户体验很精致 —— 通过 Slack 聊天，观察它异步工作，看到它设置环境和处理依赖关系。

但问题是，它很多时候并不好用。在我们尝试的 20 个任务中，我们看到 14 次失败，3 个结果不确定，只有 3 次成功。更令人担忧的是，我们无法预测哪些任务会成功。即使是与我们早期成功案例相似的任务也会以复杂、耗时的方式失败。看似前景光明的自主性成为了负担 ——Devin 会花几天时间追求不可能的解决方案，而不是认识到根本性的障碍。

这反映了我们在 AI 工具中反复观察到的一种模式。社交媒体的兴奋和公司估值与现实世界的实用性几乎没有关系。最可靠的信号来自用户交付产品和服务的详细故事。

One More Thing：新版本来了，能解决问题吗？

Answer.AI 团队一篇洋洋洒洒的博客暴露了 Devin 遇到的问题。原博客最后的附录还展示了几位研究者与 Devin 合作的具体任务。

可能大家都在期待新版本的到来，或许这些问题就解决了呢。

遗憾的是，新版本是发布了，但只是一个小版本的更新。最新发布的 Devin 1.2 在存储库中根据上下文进行推理的能力有了重大升级。

新版本更新可总结为以下几点：

1：更新后的 Devin 更有可能找到需要编辑的相关文件，重用现有的代码和模式，并且整体上会生成更准确的 Pull Request。这些改进将逐步向所有用户推出。

2：Devin 现在可以回应音频消息。试着口头向 Devin 解释你的任务和反馈，就能得到回复。