当前位置：首页 > article >正文

【论文笔记】Parameter-Efficient Transfer Learning for NLP

article 2025/3/11 15:39:29

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: Parameter-Efficient Transfer Learning for NLP
作者: Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly
发表: ICML 2019
arXiv: https://arxiv.org/abs/1902.00751

基本信息

摘要

参数高效的NLP迁移学习对NLP中的大型预训练模型微调是一种有效的迁移机制。

然而，在存在许多下游任务的情况下，微调在参数上效率低下：每个任务都需要一个全新的模型。

作为替代方案，我们提出了带有适配器模块的迁移。

适配器模块产生一个紧凑且可扩展的模型；它们为每个任务仅添加少量可训练参数，并且可以添加新任务而无需重新访问之前的任务。

原始网络的参数保持不变，从而实现了高度的参数共享。

为了证明适配器的有效性，我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类任务中，包括GLUE基准。

适配器达到了接近最先进的性能，而每个任务仅添加少量参数。

在GLUE上，我们的性能与完全微调相差0.4%，每个任务仅添加3.6%的参数。

相比之下，微调为每个任务训练了100%的参数。

Trade-off between accuracy and number of trained taskspecific parameters, for adapter tuning and fine-tuning

Adapter tuning与全量微调两种微调方法微调效果随可训练参数量变化的比较。

Adapter tuning

Adapter tuning

在Transformer Layer的各个模块之间加入Adapter Layer。

Adapter Layer将特征由高维降至低维，经过非线性函数再从低维恢复到高维，并带有残差连接。

微调时冻结其他参数，只微调Adapter Layer。

实验

Results on GLUE test sets scored using the GLUE evaluation server. MRPC and QQP are evaluated using F1 score

Test accuracy for additional classification tasks

Accuracy versus the number of trained parameters, aggregated across tasks

Validation set accuracy versus number of trained parameters for three methods

Validation accuracy versus the number of trained parameters for SQuAD v1.1

http://www.kler.cn/a/388254.html

相关文章：

软件设计师：排序算法总结

ReactPress数据库表结构设计全面分析

前端学习之ES6+

七大经典基于比较排序算法【Java实现】

Elasticsearch实战应用：打造高效的全文搜索与高亮显示功能

Python实现粒子滤波算法

1024程序员节|借势AI，写出牛码

jmeter常用配置元件介绍总结之jsr223执行python脚本

【温度表达转化】

mybatis-plus 长sql执行缓慢问题

【前端】Svelte：核心语法和组件基础

RabbitMQ — 异步调用

【Webpack配置全解析】打造你的专属构建流程️(4)

【解决】Pico 串流 Unity 开发环境 Preview 黑屏问题

现代化汽车共享：SpringBoot管理系统开发

数据与Python

企业内部知识库搭建工具精选

用js去除变量里的html标签

Android gradle下载失败后解决方案

python在车载电子测试方面的应用