当前位置：首页 > article >正文

【AI论文】Transformer^2: 自适应大语言模型

article 2025/3/13 13:14:18

摘要：自适应大型语言模型（LLMs）旨在解决传统微调方法所带来的挑战，这些方法通常计算量大，且在处理多样任务时能力较为静态。我们提出了一种名为\implname的新型自适应框架，该框架能够实时地为未见任务适配LLMs，仅通过选择性地调整其权重矩阵中的单个组件。在推理过程中，\implname采用了一种两阶段机制：首先，一个调度系统识别任务属性；然后，使用强化学习训练的任务特定“专家”向量被动态混合，以针对输入的提示获得目标行为。我们的方法在参数更少、效率更高的情况下，优于广泛使用的LoRA等方法。\implname在不同的LLM架构和模态中展现出了通用性，包括视觉-语言任务。\implname标志着一个重大的进步，为增强LLMs的适应性和任务特定性能提供了可扩展、高效的解决方案，为真正动态、自组织的AI系统铺平了道路。Huggingface链接：Paper page，论文链接：2501.06252

1. 引言

1.1 背景与挑战

传统微调方法的局限性：传统的大型语言模型（LLMs）微调方法在计算上往往非常密集，并且在处理多样任务时能力较为静态。这些方法通常需要在单个广泛的训练会话中优化模型，以涵盖各种能力，这在实际操作中难以实现，且容易导致过拟合和任务干扰。
自适应LLMs的提出：为了解决这些挑战，自适应LLMs应运而生。自适应LLMs能够根据操作环境或内部状态的变化评估和修改其行为，而无需外部干预。这种能力在动态和多变的环境中尤为重要。

1.2 Transformer²的提出

目标：Transformer²旨在通过实时调整LLMs，使其能够适应未见任务，从而提高LLMs的适应性和任务特定性能。
方法概述：Transformer²通过选择性地调整权重矩阵中的单个组件来实现这一目标。在推理过程中，它采用两阶段机制：首先识别任务属性，然后动态混合任务特定的“专家”向量以获得目标行为。

2. 方法

2.1 奇异值微调（SVF）

原理：SVF是一种基于奇异值分解（SVD）的参数高效微调（PEFT）方法。它通过提取和调整权重矩阵中的奇异值来训练有效的领域特定“专家”向量。
优势：
- 参数高效：SVF只需学习每个权重矩阵的一个向量z，与LoRA等方法相比，参数数量大幅减少。
- 高组合性：由于分解了权重矩阵中的独立奇异组件，学到的z向量具有高度组合性和可解释性。
- 正则化：通过仅修改现有奇异组件的幅度，SVF提供了一种有原则且有效的正则化形式，有助于防止过拟合。

2.2 Transformer²框架

两阶段推理机制：
- 第一阶段：模型执行并观察其在测试时的行为，收集相关信息以理解处理当前问题所需的技能。
- 第二阶段：利用第一阶段的信息组合可用的专家向量，并对LLMs的基础权重进行新的修改，以特定于测试时条件的方式生成答案。

2.3 适应策略

策略一：基于提示的适应：通过构造一个新的“适应”提示，直接询问LLM对输入提示进行分类，并基于响应选择相应的专家向量。
策略二：基于分类专家的适应：使用SVF微调基础LLM本身以处理任务识别任务，从而提高其固有的任务分类能力。
策略三：少样本适应：假设对测试时条件有额外访问权限，通过线性插值多个学到的SVF向量来产生新的专家向量，并使用交叉熵方法（CEM）基于少样本提示的性能搜索最优组合权重。

3. 实验

3.1 实验设置

模型选择：选择了三种预训练的LLMs进行评估，包括L LAMA 3-8B-I NSTRUCT、M ISTRAL -7B-I NSTRUCT -V 0.3和L LAMA 3-70B-I NSTRUCT。
任务选择：在GSM8K、MBPP-pro、ARC-Easy等任务上训练SVF专家向量，并在MATH、Humaneval、ARC-Challenge和OKVQA等未见任务上评估Transformer²的自适应能力。

3.2 实验结果

SVF性能：SVF在所有任务和基础模型上均提供了显著且一致的性能增益，而LoRA专家则收益较小，甚至在某些情况下性能下降。
自适应性能：所有Transformer²适应策略在未见任务上均表现出改进，且随着对测试时条件访问的增加，自适应效果越来越明显。特别是少样本适应策略在大多数情况下表现最佳。
效率分析：尽管Transformer²采用了两阶段推理机制，但额外的自适应阶段推理时间通常只占整体推理时间的一小部分。