当前位置: 首页 > article >正文

LLM论文笔记 11: Exploring Length Generalization in Large Language Models

  • Arxiv日期:2022.11.14
  • 机构:Google Research;University of Toronto

关键词

  • length generalization(长度泛化)
  • 理论分析

核心结论

1. 如果模型学习到了问题的算法本质,可以将问题外推到任意长度

2. 模型更倾向于学习非序列化的“捷径”解决方案,在更长的问题实例中表现较差

3. 自注意力是一种等变变换,能够执行像最大池化这样的池化操作,策略不允许在不同长度的问题之间进行知识转移

4. 在微调机制中,缩放数据、模型大小和计算并不能提高长度泛化能力

5. CoT+微调也无法推广到更长问题,干扰项是导致长度泛化失败的主要原因

6. 对于有些问题in-context学习固然比微调学习好(即使有无限数据)

7. 分布内泛化不能预测长度泛化任务的 OOD 泛化

主要方法

本文系统性地研究了基于 Transformer 的大规模语言模型(LLMs)在长度泛化任务中的表现,分析了不同训练和提示策略(微调、Few-shot 提示、Scratchpad 链式推理策略)的效果与局限性。

任务:

  • Parity(奇偶校验)

  • 变量赋值

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文


http://www.kler.cn/a/552558.html

相关文章:

  • 14. Docker 轻量级可视化工具 Portainer(的详细安装步骤+常规使用详细说明)
  • MATLAB图像处理:Sobel、Roberts、Canny等边缘检测算子
  • Ubuntu下安装cargo和uv(其实直接可以pip安装uv)
  • Django 5 实用指南(一)安装与配置
  • Qt常用控件之单选按钮QRadioButton
  • 整合Salesmart/WhatsApp、开源Odoo模块和Deepseek AI能力,实现针对国外客户的智能客服和个性化推荐服务
  • 音频采集(VUE3+JAVA)
  • 对称加密算法——IDEA加密算法
  • 【第12章:深度学习与伦理、隐私—12.2 数据隐私保护与差分隐私技术的实现与应用】
  • 前x-ai首席科学家karpathy的从零构建ChatGPT视频学习笔记--8000字长图文笔记预警(手打纯干货,通俗易懂)
  • Linux 磁盘挂载教程
  • 计算机毕业设计--基于深度学习技术(Yolov11、v8、v7、v5)算法的高效人脸检测模型设计与实现(含Github代码+Web端在线体验界面)
  • 超全Deepseek资料包,deepseek下载安装部署提示词及本地部署指南介绍
  • IO、NIO解读和不同点,以及常用的文件流操作方法
  • 在 Vue 3 中使用 Lottie 动画:实现一个加载动画
  • [数据结构]复杂度详解
  • 人工智能技术-基于长短期记忆(LSTM)网络在交通流量预测中的应用
  • 【kafka系列】broker
  • 【C语言】第三期——判断语句
  • 文件操作(PHP)(小迪网络安全笔记~