当前位置: 首页 > article >正文

Google Titans: 测试阶段的学习与记忆

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

概述
研究团队提出了一种全新的神经长期记忆模块,该模块能够在测试阶段动态学习和记忆历史上下文信息。这项技术不仅解决了传统Transformer因计算复杂度导致的上下文长度限制问题,还实现了快速的并行化训练和高效的推理。团队在此基础上开发了名为Titans的模型架构,融合了短期记忆和长期记忆模块,为处理复杂任务提供了更强的能力。实验结果表明,Titans在语言建模、常识推理、基因组学以及时间序列预测等任务中表现优于Transformer及现代线性递归模型,且能够在上下文窗口长度超过200万的情况下保持高效性和准确性。 https://arxiv.org/pdf/2501.00663

现有模型的记忆局限性
Transformer依赖注意力机制精确建模当前上下文内的依赖关系,但因其二次方的时间和内存复杂度限制了适用性。在长上下文任务中,例如语言建模、视频理解和时间序列预测,Transformer面临的挑战尤为突出。

为了提升效率,线性Transformer通过用核函数替代softmax,降低了计算复杂度。然而,这种方法压缩了历史数据,导致性能下降。此外,大多数现有架构在面对泛化、长度外推及推理任务时,仍存在显著局限性,例如缺乏短期记忆和长期记忆间的有效协作,难以学习和记忆历史抽象信息。

记忆的神经学启示
研究团队借鉴人类记忆系统,将短期记忆、工作记忆和长期记忆看作彼此独立又紧密相连的模块。这种模块化的记忆设计启发了Titans架构的开发,并帮助解决以下核心问题:如何设计有效的记忆结构、如何实现记忆的更新机制,以及如何优化记忆的检索过程。

Titans架构设计
Titans架构包括三大模块:

  1. 核心模块:主要处理短期记忆,基于限定窗口大小的注意力机制对当前数据进行处理。
  2. 长期记忆模块:动态存储和记忆长期信息,能够记忆历史上下文中的重要数据。
  3. 持久记忆模块:包含与任务相关的学习参数,这些参数独立于输入数据,存储任务知识。

为了有效融合记忆模块,研究团队提出了三种Titans架构变体:

  • 记忆即上下文(MAC):通过将长期记忆与输入数据结合,提供上下文背景。
  • 记忆即门控(MAG):结合滑动窗口注意力与长期记忆模块,通过门控机制决定记忆更新的权重。
  • 记忆即层(MAL):将长期记忆模块作为深度学习架构中的一层。

长期记忆的学习机制
长期记忆模块通过“惊讶度”指标来学习和更新记忆。当模型遇到超出预期的数据时,会记录其梯度变化并调整记忆参数。同时,模块通过引入动量机制(momentum)和遗忘机制(weight decay)优化记忆更新,从而更高效地管理有限的记忆容量。

实验结果
团队在多种任务上验证了Titans的性能:

  • 语言建模与常识推理:Titans的MAC变体在准确性和效率上均优于现有的Transformer及递归模型。
  • 针中寻物任务:Titans能够在超长序列(超过200万上下文长度)中保持高效性,远超其他模型。
  • 时间序列预测与基因组学建模:在多个时间序列预测基准数据集上,Titans的神经记忆模块表现出最佳的预测精度。基因组学任务中,Titans也展现了与最先进架构媲美的能力。

深层记忆的作用
实验还表明,增加长期记忆模块的深度可以显著提升模型在长序列任务中的性能,同时增强了模型对复杂历史信息的记忆能力。然而,深层记忆也增加了训练时间,显示出效率与效果之间的权衡。

未来展望
Titans为AI系统引入了一种新范式,其结合短期和长期记忆的设计,提供了高效的动态记忆更新能力。这项研究展示了未来AI系统可实现“持续学习”的潜力,即在面对现实世界的动态任务时,能够通过学习记忆并适应新的挑战。Titans的模块化架构和记忆机制为构建下一代智能系统奠定了基础,为多领域的任务处理带来突破性的进展。


http://www.kler.cn/a/509323.html

相关文章:

  • 【逆境中绽放:万字回顾2024我在挑战中突破自我】
  • 谷歌宣布没 JavaScript 将无法启动搜索,居然引起了轩然大波
  • 【MySQL】复合查询+表的内外连接
  • 从 0 开始实现一个 SpringBoot + Vue 项目
  • PCL 新增自定义点类型【2025最新版】
  • C语言的语法糖
  • OLED--软件I2C驱动__标准库和HAL库
  • Windows 上安装 MongoDB 的 zip 包
  • Git简介
  • Rust 强制类型转换和动态指针类型的转换
  • Springboot的自动装配原理
  • 第23篇 基于ARM A9处理器用汇编语言实现中断<五>
  • 麒麟系统中删除权限不够的文件方法
  • 什么是 OpenResty
  • python编程-OpenCV(图像读写-图像处理-图像滤波-角点检测-边缘检测)角点检测
  • springboot基于微信小程序的智慧小区管理系统
  • 基于SSM实现的乡村振兴文化平台系统功能实现六
  • PyTorch使用教程(2)-torch包
  • C# 多线程 Task TPL任务并行
  • 七大设计原则之里氏替换原则
  • 2025西湖论剑-babytrace
  • PyTest自学-认识PyTest
  • CVPR 2024 人体姿态估计总汇(3D人体、手语翻译和人体网格恢复/重建等)
  • MySQL8数据库全攻略:版本特性、下载、安装、卸载与管理工具详解
  • 当前目录不是一个git仓库/远程仓库已经有了一些你本地没有的更改
  • flutter 常用UI组件