当前位置：首页 > article >正文

LLM论文笔记 11: Exploring Length Generalization in Large Language Models

article 2025/2/24 18:14:31

Arxiv日期：2022.11.14
机构：Google Research；University of Toronto

1. 如果模型学习到了问题的算法本质，可以将问题外推到任意长度

2. 模型更倾向于学习非序列化的“捷径”解决方案，在更长的问题实例中表现较差

3. 自注意力是一种等变变换，能够执行像最大池化这样的池化操作，策略不允许在不同长度的问题之间进行知识转移

4. 在微调机制中，缩放数据、模型大小和计算并不能提高长度泛化能力

5. CoT+微调也无法推广到更长问题，干扰项是导致长度泛化失败的主要原因

6. 对于有些问题in-context学习固然比微调学习好（即使有无限数据）

7. 分布内泛化不能预测长度泛化任务的 OOD 泛化

本文系统性地研究了基于 Transformer 的大规模语言模型（LLMs）在长度泛化任务中的表现，分析了不同训练和提示策略（微调、Few-shot 提示、Scratchpad 链式推理策略）的效果与局限性。

任务：

注：本系列不包括基础的知识点讲解，为笔记/大纲性质而非教程，用于论文知识点和思想和快速记忆和回顾，更多细节建议阅读论文原文

Django 5 实用指南（一）安装与配置

Qt常用控件之单选按钮QRadioButton

音频采集（VUE3+JAVA）

对称加密算法——IDEA加密算法

Linux 磁盘挂载教程

[数据结构]复杂度详解

【kafka系列】broker

【C语言】第三期——判断语句