【大语言模型】ACL2024论文-29 答案即所需:通过回答问题实现指令跟随的文本嵌入
【大语言模型】ACL2024论文-29 答案即所需:通过回答问题实现指令跟随的文本嵌入
目录
文章目录
- 目录
- 文章信息
- 摘要
- 研究背景
- 问题与挑战
- 如何解决
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:★★★★☆
- 后记
文章信息
答案即所需:通过回答问题实现指令跟随的文本嵌入
https://arxiv.org/abs/2402.09642
摘要
本研究旨在构建一个能够根据用户指令捕捉文本特征的文本嵌入模型。以往的方法未能提供具体的解决方案来实现用户导向的嵌入。本文提出了一个新的视角,将指令视为关于输入文本的问题,并编码预期答案以获得相应的表示。我们提出的INBEDDER模型通过在抽象式问答任务上微调语言模型来实现这一理念,并在大型语言模型(LLMs)和较小的编码器基础语言模型上展示了显著改善的指令跟随能力。此外,我们通过对相同语料库应用不同指令进行聚类分析的定性分析,展示了模型的高可解释性。
研究背景
文本嵌入在大规模文本数据分析和管理中扮演着关键角色。尽管现有模型在一般文本表示上表现出色,但它们缺乏解决用户特定目标的能力。这种局限性阻碍了它们在更复杂场景中的应用,特别是在需要模型表示文本特定特征的嵌入任务中。为了解决这一问题,本文尝试赋予文本嵌入模型指令跟随的能力。
问题与挑战
现有文本嵌入模型通常设计为通用,旨在捕捉文本的整体含义,而不是遵循特定指令。此外,现有的多任务对比目标训练的模型也无法保证能够泛化到新指令,因为训练指令的多样性受限于人类编写的指令集。因此,如何构建一个能够理解和遵循用户指令的文本嵌入模型是一个挑战。
如何解决
我们提出了一种新颖的观点,将指令视为关于输入文本的问题,并编码预期的答案。具体来说,使用指令化的输入作为生成语言模型的提示,我们认为生成的答案可以直接用于模拟不同指令下的语义相似性。为了支持这一假设,我们通过实验观察了现有指令调整的大型语言模型(LLMs)的隐藏状态,并发现与生成答案相对应的隐藏状态比从提示中派生的隐藏状态显示出更好的指令意识。
创新点
- 提出了INBEDDER框架,通过学习回答用户问题来处理文本嵌入的指令跟随问题。
- 提供了一套全面的评估方法,包括指令意识测试和指令鲁棒性测试,直观地反映了模型的指令跟随能力。
- 提出了从嵌入聚类中提取解释的方法,展示了这些解释进一步反映了指令跟随能力。
算法模型
INBEDDER框架与大型语言模型(LLMs)和较小的编码器基础语言模型(如RoBERTa)兼容。具体来说,INBEDDER在11个抽象问答(QA)数据集的并集上微调语言模型,这些数据集包含了约200,000个段落-问题-答案三元组,其中答案通常简短且信息丰富。为了促进模型学习(隐含)语义,我们特别选择了抽象问答,因为答案不能直接提取。我们通过去除所有停用词进一步简化了答案,使得平均答案长度为2.89。
实验效果
- 在指令意识测试中,INBEDDER在不同模型大小上均表现出色,从355M的roberta-large到1.3/2.7b的OPT和7b的llama-2。
- 在指令鲁棒性测试中,INBEDDER显示出更好的对正确或隐含指令的理解,并具有更大的对错误指令的鲁棒性。
- 在传统的通用句子嵌入任务中,INBEDDER与最先进的嵌入模型E5和Instructor相比,表现出接近的性能。
推荐阅读指数:★★★★☆
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。