当前位置：首页 > article >正文

【论文笔记】Transformer^2: 自适应大型语言模型

article 2025/2/21 0:00:45

在这里插入图片描述

Code repo: https://github.com/SakanaAI/self-adaptive-llms

摘要

自适应大型语言模型（LLMs）旨在解决传统微调方法的挑战，这些方法通常计算密集且难以处理多样化的任务。本文介绍了Transformer²（Transformer-Squared），一种新颖的自适应框架，通过在推理时选择性地调整权重矩阵的单个奇异分量来实时适应未见过的任务。Transformer²在参数数量较少且效率更高的情况下，持续优于LoRA等常用方法。此外，Transformer²在不同LLM架构和模态（包括视觉语言任务）中表现出色，代表了自适应LLMs的重大进步。

引言

自适应LLMs代表了人工智能的重大进步，提供了一个框架，使模型能够实时调整以适应不同的任务和动态环境。传统的LLM训练方法试图在一次广泛的训练会话中优化模型的多种能力，这在实践中难以实现。相比之下，自适应模型提供了一种更灵活和高效的方法，允许模型根据手头的任务动态修改其行为。

方法

在这里插入图片描述

Transformer²

Transformer²的构建包括两个主要步骤：

奇异值微调（SVF）：通过RL学习紧凑且可组合的专家向量，基于基础模型权重的SVD。
自适应策略：在推理时动态组合SVF训练的专家向量，提供三种不同的自适应策略：
- 提示工程：构建新的“适应”提示，直接询问LLM分类输入提示。
- 分类专家：使用专门的系统处理任务识别。
- 少样本适应：通过线性插值在K个学习到的SVF向量之间进行加权组合。