当前位置: 首页 > article >正文

论文阅读:LM-Cocktail: Resilient Tuning of Language Models via Model Merging

论文链接
代码链接

Abstract

预训练的语言模型不断进行微调,以更好地支持下游应用。然而,此操作可能会导致目标领域之外的通用任务的性能显著下降。为了克服这个问题,我们提出了LM Cocktail,它使微调后的模型在总体上保持弹性。我们的方法以模型合并(Model Merging)的形式进行,其中微调的语言模型通过加权平均与预训练的基础模型或其他领域的对等模型合并。尽管简单,LM Cocktail却出奇地有效:由此产生的模型在整个通用任务领域内拥有强大的性能,同时在其目标领域保持卓越的能力。我们在流行的基准测试(包括FLAN、MMLU、MTEB)上使用LLama和BGE模型进行了全面的实验,其结果验证了我们提出的方法的有效性。

1. Introduction

语言模型(LM)是人工智能和自然语言处理的基石。得益于训练规模和模型尺寸的大规模扩张,语言模型在各种NLP任务上取得了显著突破,包括表示(representation),


http://www.kler.cn/news/328108.html

相关文章:

  • Threejs创建正多边体
  • 【Verilog学习日常】—牛客网刷题—Verilog企业真题—VL63
  • Git | Dockerized GitLab 安装使用(简单实操版)
  • 经典sql题(十四)炸裂函数的恢复
  • 【AIGC】ChatGPT提示词助力自媒体内容创作升级
  • 鸿蒙NEXT开发-ArkTS(基于最新api12稳定版)
  • 梯度检查点技术的使用
  • LINUX-线程
  • MySql基础34题写题记录(3-10)
  • 【tbNick专享】虚拟机域控、成员服务器、降级等管理
  • pip install kaggle-environments ISSUE:Failed to build vec-noise
  • MicoZone-Git
  • 深度剖析IT技术前沿:编织数字世界的未来篇章
  • 怎么通过AI大模型开发一个网站?
  • SQL第11课——使用子查询
  • 1.1.5 计算机网络的性能指标(下)
  • 作文网源码 范文论文网模板 带会员系统+支付接口+整站数据
  • docker_阿里云镜像仓库
  • 代码随想录算法训练营第56天 | 1、冗余连接,2、冗余连接II
  • 【数学分析笔记】第4章第2节 导数的意义和性质(1)
  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-29
  • 谷歌发布Imagen 3,超过SD3、DALL・E-3,谷歌发布新RL方法,性能提升巨大,o1模型已证明
  • Python 封装 socket 为 [TCP/UDP/MULTICAST] 客户端
  • powerbi计算销售额同比增长率
  • MySql Explain优化命令使用
  • Vue实战教程:如何用JS封装一个可复用的Loading组件
  • 基于php的律所管理系统
  • leetcode 513 找到左下角的值
  • SQLite3模块使用详解
  • 使用WebClient 快速发起请求(不使用WebClientUtils工具类)