当前位置: 首页 > article >正文

NLP论文速读(NeurIPS 2024)|BERT作为生成式上下文学习者BERTs are Generative In-Context Learners

论文速读|BERTs are Generative In-Context Learners 

论文信息:

简介:

      本文探讨了在自然语言处理(NLP)领域中,上下文学习(in-context learning)的能力,这通常与因果语言模型(如GPT系列)相关联。然而,作者指出,这种能力也出现在掩蔽语言模型(如BERT及其变体)中。在GPT-3引入上下文学习后,这种能力使得模型能够从提示和示例中推断并执行任务,而无需特定的任务训练数据和深度学习专业知识,这使得这类模型在实际应用中更为实用。这种优势导致许多研究者和实践者放弃了掩蔽语言模型,转而支持GPT风格的架构。本文挑战了这种普遍的假设,即上下文学习的能力仅限于因果语言模型,并展示了掩蔽语言模型同样能够展现出这种能力。

      本文的动机在于挑战现有的假设,即上下文学习的能力是因果语言模型独有的。作者认为,上下文学习是一个更普遍的现象,不应该只与单一的预训练目标相关联。此外,由于掩蔽语言模型被认为在生成性上下文学习方面能力有限,这导致了它们在某些应用中的过时。本文旨在证明,掩蔽语言模型也能够发展出上下文学习的能力,并且它们在某些任务上的表现可能出人意料地好。

论文方法:

      本文提出了一种简单的推理技术,可以将掩蔽语言模型(MLM)转换为生成性模型,而无需进一步的训练。

      具体方法如下:将[MASK]标记附加到输入提示后,让模型预测第一个掩蔽标记后的下一个标记。通过循环重复此过程,以生成文本,类似于因果语言模型。

      为了适应现有的掩蔽语言模型,作者提出了两个修改:包含特殊的序列结束标记[SEP]。

      在[SEP]标记前添加额外的[MASK]标记,以减少序列结束的概率。

      排名(Ranking):许多评估大型语言模型(LLMs)的任务可以被表述为分类任务,模型需要从多个选项中选择正确答案。

      作者提出了一种改进的伪对数似然(PLL)分数计算方法,通过在右侧上下文中额外掩蔽两个标记来减少局部依赖的影响,同时考虑全局的双向上下文。

      长度泛化(Length generalization):通过“针堆”测试来衡量DeBERTa对更长序列的泛化能力,结果表明DeBERTa能够处理比训练时更长的序列。

论文实验:

      根据Table 1的内容,该论文的实验部分主要关注了自然语言理解任务的性能比较,特别是针对掩蔽语言模型DeBERTa和因果语言模型GPT-3在SuperGLUE基准测试上的表现。

      SuperGLUE是一个集合了多个NLP任务的数据集,用于评估模型在不同自然语言理解方面的性能。

      以下是实验部分的具体描述:

      在0-shot设置下,DeBERTa在多数任务上的表现超过了GPT-3,尤其是在BoolQ和CB任务上。

      在1-shot设置下,DeBERTa同样在多数任务上表现更好,尤其是在CB任务上,DeBERTa的准确率比GPT-3高出近30个百分点。

      在few-shot设置下,DeBERTa的性能进一步提升,在COPA任务上达到了90.4%的准确率,远高于GPT-3。

论文链接:

https://arxiv.org/pdf/2406.04823

http://www.kler.cn/a/463932.html

相关文章:

  • 【MySQL基础篇】三、表结构的操作
  • CSS学习记录21
  • Uncaught ReferenceError: __VUE_HMR_RUNTIME__ is not defined
  • Oracle ASM命令行工具asmcmd命令及其使用方法
  • Redis(二)value 的五种常见数据类型简述
  • 【新教程】华为昇腾NPU的pytorch环境搭建
  • Microsoft SQL Server Integration Services (SSIS) 详细介绍
  • 树型DP # 战略游戏
  • 【JS】期约的Promise.all()和 Promise.race()区别
  • MySQL SQL元查询详解(10k,含运行实例、分析)
  • 验证二叉搜索树
  • LeetCode-最长公共前缀(014)
  • 闯关leetcode——3136. Valid Word
  • C++软件设计模式之责任链模式
  • 【2024年-12月-18日-开源社区openEuler实践记录】openeuler - jenkins:开源项目持续集成与交付的幕后引擎
  • OpenCV调整图像亮度和对比度
  • 【NLP高频面题 - LLM训练篇】为什么要对LLM做有监督微调(SFT)?
  • 使用apisix+oidc+casdoor配置微服务网关
  • 第二讲 比特币的技术基础
  • GPU 进阶笔记(三):华为 NPU/GPU 演进
  • 【Spring MVC 异常处理机制】应对意外情况
  • Pandas-数据分组
  • Seata AT 模式两阶段过程原理解析【seata AT模式如何做到对业务的无侵入】
  • 前端:轮播图常见的几种实现方式
  • CSS 实现无限滚动的列表
  • Unity+Hybridclr发布WebGL记录