Titans Learning to Memorize at Test Time
Titans Learning to Memorize at Test Time
https://arxiv.org/pdf/2501.00663
在Transformer面临长序列上下文窗口扩展难题的背景下展开研究,提出了一种新的神经长期记忆模块及Titans架构,通过实验证明在语言建模、常识推理等任务中比现有模型更有效,能处理超过2M的上下文窗口,为长序列任务提供了新的解决方案。
研究背景
- Transformer的局限:Transformer是序列建模的前沿架构,但注意力机制在处理长序列时存在二次时间和内存复杂度问题,限制了其在复杂任务中的应用。
- 线性Transformer的不足:虽然线性Transformer能降低内存消耗,但在性能上无法与传统Transformer竞争,且在处理长上下文数据时存在内存溢出问题。
- 现有架构的普遍问题:多数现有架构在泛化、长度外推和推理方面面临挑战,缺乏对记忆组件的有效设计和整合。