当前位置: 首页 > article >正文

【论文笔记】Transformer^2: 自适应大型语言模型

在这里插入图片描述

Code repo: https://github.com/SakanaAI/self-adaptive-llms


摘要

自适应大型语言模型(LLMs)旨在解决传统微调方法的挑战,这些方法通常计算密集且难以处理多样化的任务。本文介绍了Transformer²(Transformer-Squared),一种新颖的自适应框架,通过在推理时选择性地调整权重矩阵的单个奇异分量来实时适应未见过的任务。Transformer²在参数数量较少且效率更高的情况下,持续优于LoRA等常用方法。此外,Transformer²在不同LLM架构和模态(包括视觉语言任务)中表现出色,代表了自适应LLMs的重大进步。

引言

自适应LLMs代表了人工智能的重大进步,提供了一个框架,使模型能够实时调整以适应不同的任务和动态环境。传统的LLM训练方法试图在一次广泛的训练会话中优化模型的多种能力,这在实践中难以实现。相比之下,自适应模型提供了一种更灵活和高效的方法,允许模型根据手头的任务动态修改其行为。

相关工作

  • 自适应LLMs:定义为一组LLMs或一个独立的LLM,能够响应其操作环境或内部状态的变化而评估和修改其行为。
  • 低秩适应:如LoRA,通过引入小的可训练低秩矩阵来实现任务特定的更新。
  • SVD用于LLM微调:使用SVD来近似原始权重矩阵,以提高效率。

方法

在这里插入图片描述

Transformer²

Transformer²的构建包括两个主要步骤:

  1. 奇异值微调(SVF):通过RL学习紧凑且可组合的专家向量,基于基础模型权重的SVD。

  2. 自适应策略:在推理时动态组合SVF训练的专家向量,提供三种不同的自适应策略:

    • 提示工程:构建新的“适应”提示,直接询问LLM分类输入提示。
    • 分类专家:使用专门的系统处理任务识别。
    • 少样本适应:通过线性插值在K个学习到的SVF向量之间进行加权组合。

实验

实验评估了Transformer²在多个任务和模型上的表现:

  1. SVF性能:在GSM8K、MBPP-Pro和ARC-Easy任务上,SVF提供了显著且一致的性能提升。
  2. 自适应性能:在未见过的任务(如MATH、Humaneval、ARC-Challenge)上,Transformer²的自适应策略展示了改进。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

本文介绍了Transformer²,提供了一个实现自适应LLMs的新蓝图。通过SVF和三种自适应策略,Transformer²展示了在提高模型适应性和任务特定性能方面的优势。未来的工作可以集中在模型合并和高效适应技术上,以实现更强大的自适应LLMs。


http://www.kler.cn/a/552105.html

相关文章:

  • 在Ubuntu24.04上安装Stable-Diffusion1.10.1版本
  • 力扣-二叉树-617 合并二叉树
  • 图数据库Neo4j面试内容整理-查询语言 Cypher
  • Kubernetes 容器自动伸缩失败:解决方案及阿里云如何帮助
  • js第八题
  • C++中的线程同步方式
  • Vue 中 MVVM、MVC 和 MVP 模式的区别
  • Docker 在微服务架构中的应用(二)
  • NLP 八股 DAY1:BERT
  • Redis慢查询日志详解
  • MySQL数据库入门到大蛇尚硅谷宋红康老师笔记 基础篇 part 14
  • 从开发到部署:EasyRTC嵌入式视频通话SDK如何简化实时音视频通信的集成与应用
  • TensorFlow 概念
  • EG3013 控制电流的方法与实现
  • 数据分析-56-深入理解假设检验的步骤和T检验的应用案例
  • Transformer 模型
  • Word中接入大模型教程
  • Layui 列表中switch按钮的使用
  • 首都国际会展中心启用,首展聚焦汽车后市场全产业链
  • 小程序类毕业设计选题题目推荐 (29)