当前位置：首页 > article >正文

Google Titans 是否会终结基于 Transformer 的大语言模型（LLMs）

article 2025/3/1 13:59:26

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

观看视频B站链接：【本周AI新闻: Transformer 2 和 Transfomer Squared - 大模型算法的又一跃进?】

https://www.bilibili.com/video/BV188wPedEsU

自2024年底以来，生成式人工智能领域涌现了一股新趋势，那就是针对 Transformer 核心架构的创新，目标是提升其处理长上下文的能力并提高效率。像 Meta 的大概念模型（Large Concept Models）、字节潜变换器（Byte Latent Transformers）以及 Mamba 等，都是这一趋势的代表作。而如今，轮到 Google 登场了。他们推出了全新的 Titans 架构，再次证明了自己的技术实力。

什么是 Google Titans？

Google Titans 是一种全新的神经网络架构家族，专注于解决当前模型（尤其是 Transformer）的局限性，特别是在处理长期依赖和超长上下文窗口时的不足。Titans 的核心创新在于引入了神经长时记忆模块（neural long-term memory module），能够像人类一样记住历史上下文，从而在推理过程中高效结合短期记忆和长期记忆。

以下是 Titans 的关键特性和核心组件解析：

Google Titans 的核心功能

神经长时记忆模块
Titans 配备了深度神经长时记忆模块，能够在测试时记忆和存储历史数据。
- 这套系统借鉴了人类长时记忆的工作机制，尤其擅长捕捉“令人惊讶”或“反常”的信息。
- 它使用基于神经网络输入梯度的“惊喜指标”来判断哪些输入值得记忆。
- 模块还引入了衰减机制，可以在管理记忆容量时逐步遗忘不相关的信息，类似于人类会忘记次要细节。
记忆管理机制
- 通过动态遗忘机制（类似于现代递归模型中的“遗忘门”），Titans 能适应性地遗忘不再需要的信息。
- 记忆更新过程基于带动量的梯度下降方法，既能保留重要的历史信息，又能高效管理存储资源。
三种记忆集成模式
Titans 提出了三种将记忆模块融入整体架构的方法：
- 记忆即上下文（MAC）：将长期记忆视为当前信息的上下文，通过注意力机制将历史信息与当前上下文结合。
- 记忆即门控（MAG）：与滑动窗口注意力机制并行使用，记忆模块在模型中扮演渐隐记忆的角色。
- 记忆即层（MAL）：将记忆模块作为神经网络中的一层，压缩过去和当前的上下文后传递给注意力模块。
持久性记忆
除了长时记忆，Titans 还拥有持久性记忆模块，专门存储任务相关的参数。这种记忆与输入无关，但能帮助模型在不同上下文间保留任务相关的信息。
效率与可扩展性
Titans 的设计注重效率与可扩展性：
- 能处理超过 200 万个标记的上下文窗口，适用于超长文档和序列数据。
- 使用快速、可并行化的算法进行训练，充分利用张量操作和小批量梯度下降方法。
- 针对训练与推理进行了优化，特别适合语言建模、时间序列预测和基因组学等大规模任务。
性能表现
Titans 在多个任务上表现超越了当前主流模型（如 Transformers 和现代线性递归模型）：
- 在语言建模、常识推理和长上下文任务（如“在干草堆中找针”）上表现尤为突出。
- 在参数规模较小的情况下，Titans 在需要长期记忆和推理的任务上，甚至可以媲美大型模型（如 GPT-4）。