当前位置：首页 > article >正文

【大语言模型】ACL2024论文-29 答案即所需：通过回答问题实现指令跟随的文本嵌入

article 2025/4/2 10:12:56

本研究旨在构建一个能够根据用户指令捕捉文本特征的文本嵌入模型。以往的方法未能提供具体的解决方案来实现用户导向的嵌入。本文提出了一个新的视角，将指令视为关于输入文本的问题，并编码预期答案以获得相应的表示。我们提出的INBEDDER模型通过在抽象式问答任务上微调语言模型来实现这一理念，并在大型语言模型（LLMs）和较小的编码器基础语言模型上展示了显著改善的指令跟随能力。此外，我们通过对相同语料库应用不同指令进行聚类分析的定性分析，展示了模型的高可解释性。
在这里插入图片描述

研究背景

文本嵌入在大规模文本数据分析和管理中扮演着关键角色。尽管现有模型在一般文本表示上表现出色，但它们缺乏解决用户特定目标的能力。这种局限性阻碍了它们在更复杂场景中的应用，特别是在需要模型表示文本特定特征的嵌入任务中。为了解决这一问题，本文尝试赋予文本嵌入模型指令跟随的能力。

问题与挑战

现有文本嵌入模型通常设计为通用，旨在捕捉文本的整体含义，而不是遵循特定指令。此外，现有的多任务对比目标训练的模型也无法保证能够泛化到新指令，因为训练指令的多样性受限于人类编写的指令集。因此，如何构建一个能够理解和遵循用户指令的文本嵌入模型是一个挑战。

如何解决

我们提出了一种新颖的观点，将指令视为关于输入文本的问题，并编码预期的答案。具体来说，使用指令化的输入作为生成语言模型的提示，我们认为生成的答案可以直接用于模拟不同指令下的语义相似性。为了支持这一假设，我们通过实验观察了现有指令调整的大型语言模型（LLMs）的隐藏状态，并发现与生成答案相对应的隐藏状态比从提示中派生的隐藏状态显示出更好的指令意识。

创新点

提出了INBEDDER框架，通过学习回答用户问题来处理文本嵌入的指令跟随问题。
提供了一套全面的评估方法，包括指令意识测试和指令鲁棒性测试，直观地反映了模型的指令跟随能力。
提出了从嵌入聚类中提取解释的方法，展示了这些解释进一步反映了指令跟随能力。

算法模型

INBEDDER框架与大型语言模型（LLMs）和较小的编码器基础语言模型（如RoBERTa）兼容。具体来说，INBEDDER在11个抽象问答（QA）数据集的并集上微调语言模型，这些数据集包含了约200,000个段落-问题-答案三元组，其中答案通常简短且信息丰富。为了促进模型学习（隐含）语义，我们特别选择了抽象问答，因为答案不能直接提取。我们通过去除所有停用词进一步简化了答案，使得平均答案长度为2.89。