当前位置: 首页 > article >正文

论文笔记:SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning

ACL 2024

1 intro

  • 基于 Transformer 的大模型一般都有很多层
    • 在广泛采用的 PEFT 技术(包括 Adapters 和 LoRA)中,尤其是在深层中,也存在过度平滑现象(即token之间的相似度很高)
  • 论文评估了同一语句中 token 之间的余弦相似性以检测过平滑现象
    • 给定一个包含m个 token的句子(h1,h2,....hm),其token间余弦相似性为
    • 结果如下:
      • 随着模型层数的增加,token之间越来越像了

  • ——>论文提出了 SIBO
    • 通过在 PEFT 模块(adapter/LORA)的输入中注入初始残差,减少了 Transformer 模型中的过平滑问题

2 方法

3 结果


http://www.kler.cn/a/370193.html

相关文章:

  • 基于Redis实现短信验证码登录
  • 如何在 Pytest 中使用命令行界面和标记运行测试
  • nuxt3项目打包部署到服务器后配置端口号和开启https
  • C语言程序设计十大排序—选择排序
  • 以单用户模式启动 Linux 的方法
  • CTTSHOW-WEB入门-爆破25-28
  • 合理使用动画和转场<HarmonyOS第一课>
  • 【Orange Pi 5 Linux 5.x 内核编程】-字符设备文件操作基础
  • ssm011线上旅行信息管理系统(论文+源码)_kaic
  • 基于SpringBoot的“超市进销存系统”的设计与实现(源码+数据库+文档+PPT)
  • 面向对象进阶(下)(JAVA笔记第二十五期)
  • 【STM32-HAL库】火焰传感器(STM32F407ZGT6)(附带工程下载链接)
  • spring-第十二章 GoF代理模式
  • Android Studio安装完成后,下载gradle-7.4-bin.zip出现连接超时
  • 将 Logstash 管道转换为 OpenTelemetry Collector 管道
  • JavaScript如何判断变量数据类型 - 2024最新版前端秋招面试短期突击面试题【100道】
  • SpringBoot 集成RabbitMQ 实现钉钉日报定时发送功能
  • [LeetCode] 526. 优美的排列
  • Docker | 校园网上docker pull或者docker run失败的一种解决方法
  • 探索C嘎嘎:认识string类
  • 【大数据分析与挖掘模型】matlab实现——非线性回归预测模型
  • 【计算机网络 - 基础问题】每日 3 题(五十七)
  • 《等保测评:安全与发展的双轮驱动》
  • 14 C语言中的关键字
  • Prometheus+Telegraf实现自定义监控项配置
  • RDD的常用转换算子