当前位置：首页 > article >正文

【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（三）

article 2025/3/1 13:36:36

****非斜体正文为原文献内容（也包含笔者的补充），灰色块中是对文章细节的进一步详细解释！

3.2 全局解释（Global Explanation）

与旨在解释模型个体预测的局部解释不同，全局解释提供了对语言模型内部工作机制的洞察。全局解释旨在理解各个组成部分（神经元、隐藏层和更大的模块）编码了什么，并解释各个组成部分学到的知识/语言属性。我们检查了三种主要的全局解释方法：分析模型表示和参数的探测方法，确定模型对输入响应的神经元激活分析，以及基于概念的方法。

3.2.1 基于探测的解释（Probing-Based Explanations）

自监督预训练过程导致模型从训练数据中获得广泛的语言知识。探测技术用于理解LLMs（如BERT）捕获的知识，可以帮助研究人员了解模型在预训练过程中学到了什么，以及模型是如何表示和处理语言信息的。

3.2.1.1 基于分类器的探测（Classifier-Based Probing）

基于分类器的探测的基本思想是在预训练或微调的语言模型（如BERT、T5）上训练一个浅层分类器。

为了执行探测，首先冻结预训练模型的参数，模型为输入单词、短语或句子生成表示，并学习参数，如注意力权重。
这些表示和模型参数被输入到探测分类器中，其任务是识别模型获得的某些语言属性或推理能力。
一旦探测训练完成，它将在保留数据集上进行评估。标记数据来自可用的标注器或金标准标注数据集。尽管每个探测分类器通常针对特定任务量身定制，但训练分类器探测不同知识的方法保持一致。

"Holdout dataset"（保留数据集）：指的是从整个数据集中划分出来的一部分数据，这部分数据在模型训练过程中不被使用，而是保留到训练完成后用于评估模型的性能。保留数据集的主要目的是提供一个未被模型见过的数据样本集合，以测试模型对新数据的泛化能力。

Available Taggers（可用的标注器）：标注器（Tagger）是指能够识别文本中单词的语法类别（如名词、动词等）的NLP工具。能够自动对文本进行词性标注（Part-of-Speech Tagging）或其他类型的标注，如命名实体识别（Named Entity Recognition）。例如，NLTK（Natural Language Toolkit）是一个流行的Python库，它提供了易于使用的接口来进行文本处理，包括分类、标记化、词干提取、标注等。

Gold-Annotated Datasets（金标准标注数据集）：金标准标注数据集是指人工精确标注的数据集，这些数据集被用作训练和评估NLP模型的标准。在这些数据集中，每条数据都经过了详细的标注，比如标记了词性、句法结构、实体等信息。例如，Universal NER（UNER）项目旨在开发多语言的命名实体识别基准，提供了跨语言一致的标注方案。

相关研究将根据探测的模型组件进行介绍，即向量表示和模型参数。

我们首先审视了一些研究工作，这些工作通过分析向量表示来衡量模型中蕴含的知识。在这个类别中，所谓的“知识”可以是低层次的语法知识（Syntax Knowledge），也可以是高层次的语义知识（Semantic Knowledge）。研究表明，模型的较低层次更能够预测单词级的语法，而较高层次更能够捕获句子级的语法和语义知识（Belinkov et al., 2017; Peters et al., 2018; Blevins et al., 2018; Jawahar et al., 2019)。

语法标签可以进一步分为单词级或句子级类别。单词级的语法标签提供有关每个单词的信息，如词性标记、形态标记、最小短语成分标记等。句子级的语法标签描述整个句子的属性，如语态（主动或被动）、时态（过去、现在、未来）和顶级句法序列。

1）对于单词级语法探测，通常通过依赖句法分析器 (Dozat & Manning, 2017)来引入解析树（Parse Trees），来帮助提取依赖关系 (Tenney et al., 2019b)。还开发了结构探测器，通过使用距离度量测量所有词对之间的句法距离来识别特定向量空间中的解析树 (Hewitt & Manning, 2019; Chen et al., 2021)。这表明句法知识被嵌入到了向量表示中，并且通常用于重建依赖树以进行探测任务。

解析树（Parse Trees）：

解析树是一种树状结构，用于表示句子中单词之间的句法关系。在这种结构中，每个节点代表一个单词，而边代表单词之间的依存关系或句法结构。

然而，有人担心探测分类器是学习表示中的语法，还是仅仅学习任务。一些人认为，只有丰富的语法表示才能使简单分类器表现良好 (Lin et al., 2019)。Kunz和Kuhlmann (2020)推翻了这些主张，证明其良好的性能来自于对局部邻近单词进行编码。一项研究表明，如果一个分类器主要依赖于语义线索（即单词或句子的含义信息）来进行预测，那么它可能无法有效地提取或识别句子中的语法结构（这里的“语法”指的是句子中单词如何组织和相互关联的规则，比如词性、句法结构、依存关系等）(Maudslay & Cotterell, 2021)。相比之下，其他研究发现，如BERT这样的模型以多种方式编码相应信息 (Mohebbi et al., 2021; Li et al., 2021a)。因此，探测语法信息的有效性仍需要进一步调查。

2）句子级语法探测：由于句子级语法信息通常分布在每个单词中，因此使用探测分类器对它们的预测更简单，无需依赖树检索。局部句法和语义通常一起研究，因为它们研究相同的对象，如神经元、层和上下文表示。差异主要来源于它们的训练目标和训练数据 (Tenney et al., 2019a)。

学习语义知识的能力通常在如指代消解（Coreference Resolution）、命名实体识别（Named Entity Recognition, NER）、关系分类（Relation Classification）、问题类型分类（Question Type Classification）和支持事实（Supporting Facts）等任务上进行测试（Van Aken等人，2019年）。

指代消解（Coreference Resolution）：
指代消解任务的目标是识别文本中代词和名词短语之间的指代关系。例如，确定“他”在句子“约翰丢了钥匙，他很伤心”中指的是“约翰”。

命名实体识别（Named Entity Recognition, NER）：
命名实体识别任务涉及识别和分类文本中的特定实体，如人名、地名、组织名等。

关系分类（Relation Classification）：
关系分类任务旨在识别文本中实体之间的关系。例如，确定句子“苹果公司由史蒂夫·乔布斯创立”中“苹果公司”和“史蒂夫·乔布斯”之间的“创立者”关系。

问题类型分类（Question Type Classification）：
问题类型分类任务是指将问题根据其询问的类型进行分类，如是否问题、数量问题、定义问题等。

支持事实（Supporting Facts）：
支持事实任务涉及识别和提取支持给定陈述或论点的事实。这通常用于验证信息的真实性或构建知识库。

一个突出的框架称为边缘探测 (Tenney et al., 2019b)，它提供全面的句法和语义探测工具。不同之处在于，它用预训练表示和整数span作为输入，并将它们转换为固定长度的span表示，以训练探测分类器。由于 span 表示的定义，这种方法变得非常通用，并广泛应用于句法和语义探测任务。

一些工作简单地通过测量代词经过转换后的表示与前面单词之间的相似度来探测指代关系（代词（如“他”、“它”）在句子中指向哪个名词或名词短语（称为antecedent）），并为更相似的单词对分配更高的概率（如果两个单词的表示相似度较高，模型会认为它们指代同一实体的可能性更大）(Sorodoc et al., 2020).

在使用提示（prompts）进行探测工作时，尤其是在零样本（zero-shot）和少样本（few-shot）学习场景中，常常会遇到的挑战。使用这些模型的评估更加复杂，因为提示质量也会显著影响性能(Zhang et al., 2022a)。即使使用了精心设计的数据集和提示（prompt）设计，得到的结果仍然需要进一步的审查和验证。

零样本学习（Zero-Shot Learning, ZSL）
在零样本学习中，模型需要在没有看到任何特定类别样本的情况下识别新类别。这种学习方式面临的挑战包括对已见过类别的偏见、领域偏移（domain shift）、语义表示的质量，以及扩展性问题。例如，模型可能会偏向于已见过的类别，导致对未见类别的识别性能不佳。

少样本学习（Few-Shot Learning, FSL）
少样本学习是指模型仅使用少量样本进行学习。这种学习方式的挑战在于如何快速从极少的样本中学习到有效信息。这包括了如何有效地迁移知识、如何设计有效的元学习策略，以及如何处理样本不足导致过拟合的问题。

另一方面，针对注意力头的探测分类器以类似的方式设计，其中浅层分类器在预训练模型上进行训练，以预测某些特征。除了将注意力头与句法和语义联系起来外，还研究了注意力头的模式。一项代表性工作是：通过在预训练的语言模型上使用随机输入数据，生成自注意力图（self-attention maps）来观察模型如何关注不同的词语，然后训练一个简单的分类器来识别这些图中的模式，并基于这些模式来优化模型，比如通过减少不必要的注意力头来提高效率（剪枝）（Kovaleva et al.，2019;Clark et al.，2019）。有些研究不是做出预测，而是将模型中的注意力机制视为一种语义信息指示器，通过反向追踪模型中的注意力权重，从模型的高层向输入层积累这些权重，并将它们分配回输入的 tokens，以此来表示每个单词的语义信息（Wu et al.， 2020a）。但问题是，追踪的注意力是否能够在不同的头之间等价地表示语义信息。

尽管高探测性能通常来源于表示的质量和可解释性，但这种假设仍然很大程度上未经证实且难以验证。在我们能够全面解决这些挑战之前，添加如选择性（Hewitt和Liang，2019）等约束可能有助于临时缓解潜在的探测偏差，可以帮助我们更好地理解探针在多大程度上能够针对特定的语言特性（如词性标注），而不是与之无关的控制任务。这种选择性测量可以在一定程度上减轻探针可能存在的偏差，从而为我们提供更可靠的结果。

3.2.1.2 无参数探测（Parameter-Free Probing）

以数据为中心的探测技术还有另一个分支，它不需要探测分类器，相反，这些技术设计了针对特定语言属性（如语法）的定制数据集 (Marvin & Linzen, 2018)。通过评估编码模型在这些数据集上的表现，可以展示模型捕捉这些语言特征的能力。

对于语言模型来说，评估的标准是看模型对正例（符合特定语言特征的样本）的概率是否高于对负例（不符合特定语言特征的样本）的概率。如果模型能够更高概率地预测正例，这表明它在捕捉这些语言特征方面表现良好。

探测任务也可以通过数据驱动的提示搜索来执行，这种方法不依赖于额外的探测分类器，而是利用语言模型自身在文本生成或补全任务上的表现来评估模型对特定语言属性的掌握程度 (Petroni et al., 2019; Apidianaki & Soler, 2021; Li et al., 2022)。例如，Ravichander等人证明BERT通过完成填空任务（即填充不完整句子中的空白）能够编码超类信息，并且在零样本设置中表现良好，能够在所有样本的前5个结果中提供正确答案。然而，这种方法也存在争议（Zhong等人，2021），因为训练数据中包含的规律可能被提示方法利用来做出预测，这使得语言模型真正捕捉到的事实知识变得模糊不清。

3.2.2 神经元激活解释（Neuron Activation Explanation）

与检查整个向量空间不同，神经元分析关注于单个维度，即那些对模型性能至关重要或与特定语言属性相关的神经元。

它分为两个主要步骤：首先，以无监督的方式识别重要神经元。其次，在监督任务中学习语言属性与个体神经元之间的关系。

基于“不同模型在学习相似的语言属性时通常会共享相似的神经元”的假设，这些共享神经元根据各种指标（如相关性测量和学习权重）进行排名(Bau et al., 2018; Dalvi et al., 2019)。

或者，也可以采用传统的有监督分类方法来找到特定模型中的重要神经元（Dalvi et al., 2019）。这些神经元的重要性通过消融实验（如遮蔽、擦除、可视化等）来定量验证。

消融实验是一种通过移除或改变模型的某些部分来观察模型性能变化的方法，以此来评估这些部分的重要性。

此外，还出现了其他探测技术，如贪婪高斯探测（greedy Gaussian probing），用于识别重要神经元（Torroba Hennigen et al., 2020）。然而，现有方法难以平衡准确性和选择性（Antverg & Belinkov, 2022）。

准确性指的是探测任务的性能，而选择性指的是探测与特定语言属性相关神经元的能力。

直观上，为了解释模型的行为，我们应该检查所有神经元。但是，由于计算成本高昂，并且有研究表明只有一小部分神经元对决策至关重要，因此现有的方法通常结合了排名算法来识别和分析这些重要的神经元（Bau et al., 2018; Antverg & Belinkov, 2022）。

随着LLMs的泛化能力的提高，为单个神经元提供解释变得可行。OpenAI最近的一项研究展示了如何使用GPT-4为GPT-2 XL中的单个神经元激活生成自然语言解释。

使用GPT-4为GPT-2 XL中的单个神经元激活生成自然语言解释的过程大致如下：

生成解释（步骤一）：
首先，研究人员会选择GPT-2 XL中的一个特定神经元，并向GPT-4展示与该神经元相关的文本序列和激活情况。GPT-4的任务是生成一个可能的解释，描述这个神经元的行为。例如，GPT-4可能会分析一段关于漫威电影的文本，并识别出该神经元与“电影、角色和娱乐”相关。

使用GPT-4进行模拟（步骤二）：
接下来，研究人员再次使用GPT-4来模拟被解释的神经元的行为。GPT-4会尝试预测这个神经元在新的文本输入下会如何激活。

对比评估打分（步骤三）：
最后，研究人员会比较GPT-4模拟的神经元激活结果与GPT-2 XL真实神经元的激活结果，根据匹配程度对GPT-4的解释进行评分。这个评分反映了GPT-4生成的解释与实际神经元行为的一致性。

通过测试GPT-4模拟激活与真实激活之间的相关性来评估每个神经元解释的质量（下图）。高相关性表明解释准确捕捉了神经元编码的本质。超过1000个GPT-2 XL神经元被发现有来自GPT-4的高评分解释，这占了它们行为的大部分。这种自动生成的自然语言提供了对GPT-2 XL中出现的内部计算和特征表示的直观洞察。

图片内容：摩西被命令“拿着这段文字，以便你能记住如何保存我将托付给你的书籍。你要安排它们，用雪松膏抹它们，并把它们放在陶罐中……”（摩西遗嘱 1:16–17）。

图注： 激活可视化显示了GPT-2第五层中第131个神经元的激活情况。GPT-4的模拟解释表明，第131个神经元在处理引用时被激活（绿色）。该神经元的真实激活验证了GPT-4提供的模拟解释的准确性。

解释LLMs的各个组成部分的一个常见限制是缺乏各个组成部分的真实解释注释。没有这些注释，就难以准确评估模型生成的解释是否正确。

另一项最近的研究提出了Summarize和Score（SASC）解释流程，以生成自然语言解释来解释大型语言模型中的模块(Singh et al., 2023)。首先，SASC使用预训练的语言模型来识别能够最大程度激活模块f的n-gram（词组），并基于这些n-gram生成候选解释。然后，SASC通过基于每个候选解释生成合成数据，并测试模块 f 对这些数据的响应，来评估每个候选解释。研究人员将SASC应用于BERT（bert-base-uncased）中的模块，并将其与人类标注的解释进行比较。比较结果表明，SASC生成的解释有时与人类解释相似。

这种方法的优势在于，它不需要访问模块的内部结构，也不需要人工干预，完全通过黑盒方式（即仅通过模块的输入输出）来生成解释。SASC的提出，为自动获取LLMs中黑盒文本模块的自然语言解释提供了一种可能的解决方案，并有助于提高模型的可解释性。

3.2.3 基于概念的解释

基于概念的可解释性算法将输入映射到一组概念，并测量每个预定义概念对模型预测的重要性分数，从而实现对模型的解释。这种方法通过引入抽象概念，使得模型的解释更加易于人类理解，而不是仅仅依赖于低层次的特征。在潜在空间中的信息也可以被转换成易于理解的解释。

一个代表性的框架是TCAV（Testing with Concept Activation Vectors），它使用方向导数来量化定义概念对模型预测的贡献。

TCAV首先通过一组示例来定义概念。这些示例可以是任何与概念相关的输入数据，例如，为了定义“条纹”概念，可以提供一组条纹图案的示例。
接下来，TCAV通过训练一个线性分类器来区分代表概念的示例和随机反例，从而学习一个“概念激活向量”（CAV），用于检测感兴趣的概念。CAV是正交于决策边界的向量，指向概念的方向。

这种方法提供了对模型预测中概念重要性的全局解释，而不仅仅是对单个图像或样本的解释，且不需要更改或重新训练原始模型即可使用。通过这种方式，TCAV使得模型的解释更接近人类的理解和交流方式。

TCAV最初是为计算机视觉提出的，后来也适应了NLP模型，用于IMDB敏感性数据集的情感分类。例如，研究中探索了“积极的形容词”（Positive Adjectives）和“中性”（Neutral）两个概念。积极的形容词概念指的是表达积极情感的形容词集合，如“好”或“可爱”。而中性概念则涵盖更广泛的领域/主题，并且与积极的形容词概念不同。对于具有负面情感的句子，TCAV分数表明，与中性相比积极形容词的得分相对较低，这与人类理解一致。然而，TCAV需要额外的数据来描述概念，概念分类器的性能很难保证。

选择概念的另一种方法是通过让神经元在带有标注数据集的探测任务中进行学习（Mu & Andreas, 2021）。研究表明，神经元不仅基于单个概念产生解释，还基于逻辑形式的组合。解释的神经元越多，模型就越准确。基于概念的解释的一个常见陷阱是如何定义有用的概念。此外，它总是受到可用描述性数据集的限制。

3.2.4 机械解释

机械解释通过研究单个神经元以及它们之间的连接（即电路Circuits ），来理解语言模型(Anthropic, 2023; Bricken et al., 2023).。这种方法的动机是将神经模型的各个部分视为功能性组件，就像我们研究机器的各个部分以了解整个机器是如何运作的一样。 Circuits 最初被提出来解释直观易懂的视觉模型，其中复杂物体的检测器可以由简单的构建块（如线检测器、曲线检测器等）构建而成。

有研究专注于神经网络的隐藏表示，这些表示可以通过特征进行可视化。他们认为，复杂的特征检测器可以从早期和简单的特征检测器中实现。此外，不同的特征可以分布在许多多义性神经元上，也称为叠加（Olah等人，2020a）。

注解：

隐藏层通常不直接与输入或输出相连，但却包含了输入数据经过处理后的高级特征表示。这些隐藏表示可以通过特征可视化技术展示出来，帮助我们理解神经网络是如何学习和识别数据中的特征的。
在神经网络中，复杂的特征（比如图像中的物体形状）可以通过组合早期层中检测到的简单特征（比如线条和颜色）来构建。
“多义性神经元”指的是，单个神经元可能对多种不同的特征都有反应。这种现象被称为“叠加”，意味着一个神经元可以同时代表多个特征，这增加了神经网络的表达能力，但也使得理解单个神经元的功能变得更加复杂。

另一种工作研究连接神经元的权重，旨在找到实现简单逻辑的有意义的算法。研究者将神经网络中的子图（即网络的一部分）视为电路。这些电路代表了特征的线性组合以及逻辑操作。通过分析这些电路，研究者可以建立输入和输出之间的因果关系。

特征的线性组合是指将多个特征按照一定的权重相加，而逻辑操作则是指基于这些特征进行的决策过程。

在基于神经元级别的电路解释之上，还探索了更大规模的功能组件。已经识别出三种现象：1）分支专业化，2）权重带，3）等变性。

分支专业化（Branch Specialization）描述了分支之间的特征组织，其中给定类型的特征被观察到聚集在一个分支中。这一现象存在于不同层级中，相同的分支专业化可能在不同的架构和任务中都是稳健的。(Voss et al., 2021)
权重带状（Weight Banding）通常出现在视觉模型的最后一层，特别是在使用了全局平均池化（Global Average Pooling）的情况下。全局平均池化是一种减少特征图空间维度的技术，它通过计算每个特征图的平均值来实现。权重带状指的是在这种池化操作后，权重在某些特定的“带”中聚集。(Petrov et al., 2021)
等变性（Equivariance）捕捉了神经网络中的对称性，即网络如何处理输入数据的变换（如旋转、缩放等）。在具有等变性的网络中，如果输入数据发生了某种变换，网络中的许多神经元也会相应地进行变换，从而保持输出的一致性。这意味着网络能够识别出输入数据的某些不变性质，即使输入的外观发生了变化。(Olah et al., 2020b)

当涉及到Transformer时， Circuits 通常可行，且由于Transformer的架构，电路在Transformer中的工作和解释方式与传统神经网络有所不同。研究者最近研究了单层和双层的仅使用注意力的模型。

单层注意力模型：在这些模型中，可以通过权重访问二元组（bigram）和跳跃三元组（skip-trigram）表。这些表帮助模型捕捉语言中的局部和长距离依赖关系。
双层注意力模型：这些模型展示了“归纳头”（induction head）的概念，通过组合不同层的注意力头来实现。归纳头由两个注意力头组成，第一个注意力头负责将前一个标记的信息复制到下一个标记，而第二个注意力头则使用第一个注意力头的信息来推断下一个标记。这种机制被认为是上下文学习（in-context learning）的来源。这一点已经通过多个不那么确定的证据得到了证明。例如，上下文学习和归纳头的共现出现的相位变化，以及在扰动或敲除归纳头后上下文学习的变化。

由于最先进的语言模型包含多层和多层感知机等复杂组件，目前还不清楚这些模型中的“归纳头”理论是否仍然成立。

另外，一些研究关注包含大部分信息的前馈层。在Transformer中，每个键（key）被视为训练样本中文本模式的记忆，而值（value）则基于键诱导输出分布(Geva et al., 2020)。通过追踪GPT中隐藏状态激活的因果效应，并改变对模型预测起决定性作用的模型权重，研究者识别了一系列与事实相关的中间层 (Meng et al., 2022)。

另一项研究将前馈层转换为子更新向量，这被解释为一组人类可解释的概念集(Geva et al., 2022)。

然而，与每个部分都有确定功能的数字电路不同，大规模神经网络在结构上更加灵活和多样化。例如，它们能够承受移除整个层的影响，这表明这些模型具有一定程度的鲁棒性。

此外，尽管现有的大多数假设尚未在大型语言模型上进行检验，但最近的研究开始探索这一点。Lieberum等人（2023）在70B参数的Chinchilla模型上探索了电路分析的可扩展性。研究结果表明，激活拼接（activation patching，Meng等人，2022）、注意力模式可视化（attention pattern visualization，Elhage等人，2021）和逻辑归因（logit attribution）等技术能够很好地适应大型模型，而不是简单地将信息从正确的内容标记转移到最终标记的正确字母头。因此，基于电路的解释仍然需要在大型语言模型上进行进一步的研究。

这里的“正确内容标记”和“正确字母头”指的是在处理语言任务时，模型需要识别和理解输入数据中的关键信息，并在生成输出时准确地使用这些信息。

激活拼接（Activation Patching）：这是一种分析技术，可以帮助研究者理解模型在处理特定输入时哪些部分被激活，以及这些激活如何与模型的输出相关联。

注意力模式可视化（attention pattern visualization）：通过可视化模型的注意力模式，研究者可以观察模型是如何关注输入序列的不同部分，以及这些关注点如何影响模型的决策过程。

逻辑归因（Logit Attribution）：用于确定模型输出中每个输入标记的贡献度，帮助理解模型是如何基于输入数据做出预测的。

3.3 利用解释（Making Use of Explanations）

在前面的小节中，我们介绍了LLMs的解释方法。在这个小节中，我们讨论如何将可解释性作为工具来调试和改进模型。

3.3.1 调试模型（Debugging Models）

事后解释性方法可以用来分析 模型特征重要性的模式，以识别其行为中的偏见或局限性（Du等人，2023年）。例如，如果模型在不考虑上下文的情况下始终关注输入序列中的某些特定标记，这可能表明模型依赖于启发式或偏见，而不是真正理解输入序列的含义。

最近的研究使用集成梯度（Integrated Gradients）来调试训练有素的语言模型在自然语言理解任务中的表现，发现它们在预测时依赖于捷径而不是复杂推理（Du等人，2021年）。具体来说，这些模型在训练初期就倾向于从长尾分布中挑选这些捷径特征。这种捷径学习损害了模型的鲁棒性和对分布外样本的泛化能力。集成梯度解释还用于检查语言模型对对抗性示例的鲁棒性（Chen & Ji，2022年）。这些解释揭示了，对对抗性示例鲁棒的模型依赖于相似的特征，而不鲁棒的模型依赖于不同的关键特征。这些见解激发了更鲁棒的对抗性训练方法的发展。

3.3.2 改进模型（Improving Models）

正则化技术可以用来改进模型解释的性能和可靠性。具体来说，解释正则化（ER）方法旨在通过使模型的机器推理（模型关注的标记）与人类推理相一致来提高大型语言模型（LLM）的泛化能力（Joshi等人，2022年）。例如，提出了一个名为AMPLIFY的框架，它使用事后解释方法生成自动化推理（Ma等人，2023年）。这些自动化推理作为提示的一部分输入给LLM进行预测。实验表明，AMPLIFY能够将LLM在各种任务上的准确性提高10-25%，即使在缺乏人类推理的情况下也是如此。

另一项研究提出了ER-TEST（Joshi等人，2022年），这是一个评估ER模型在分布外（OOD）泛化性能的框架，从三个维度进行评估：未见过的数据集测试、对比集测试和功能测试。这比仅仅评估在分布内（In-Distribution）的性能提供了更全面的评估。他们考虑了三种类型的解释方法，包括输入*梯度（Input*Gradient）、基于注意力的推理（Stacey等人，2022年）和学习推理（Chan等人，2022年）。在情感分析和自然语言推理任务/数据集上，ER-TEST显示ER对在分布内性能影响不大，但在OOD上获得了较大的提升。

还有研究提出了一个名为XMD的端到端框架，用于基于解释的调试和改进（Lee等人，2022年）。XMD允许用户通过直观的界面对任务或实例级别的解释提供灵活的反馈。然后，它通过正则化模型以实时更新，使解释与用户反馈保持一致。使用XMD已被证明可以将文本分类模型在OOD性能上提高高达18%。

上篇：【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（一）_可解释推荐的大型语言模型指标独特句子比率 (usr)-CSDN博客

【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（二）-CSDN博客

下篇：

查看全文

http://www.kler.cn/a/459427.html