规模化指令微调的语言模型
摘要
在将数据集表述为指令的形式上进行语言模型微调,已被证明能够提升模型性能及其对未见任务的泛化能力。本文探讨了指令微调,特别关注以下三个方面:(1) 任务数量的扩展,(2) 模型规模的扩展,以及 (3) 基于链式思维(chain-of-thought)数据的微调。我们发现,结合上述方面的指令微调显著提升了多种模型类别(如PaLM、T5、U-PaLM)、提示设置(如零样本、少样本、链式思维)以及评估基准(如MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts)的性能。例如,在1.8K个任务上进行指令微调的Flan-PaLM 540B模型,其性能大幅超越了原始PaLM 540B模型(平均提升+9.4%)。Flan-PaLM 540B在多个基准测试中达到了最先进的性能,例如在五样本MMLU测试中达到了75.2%的准确率。我们还公开发布了Flan-T5的检查点,这些检查点即使与更大的模型(如PaLM 62B)相比,也表现出强大的少样本性能。总体而言,指令微调是一种提升预训练语言模型性能和可用性的通用方法。
1 引言
人工智能的一个重要目标是开发能够泛化到未见任务的模型。在自然语言处理(NLP)领域,预训练语言模型在这一目标上取得了显著进展,因为它们能够根据自然语言描述执行任务(Brown 等,2020,及其他)。通过在以指令形式表述的任务集合上对语言模型进行微调,进一步推动了这一进展,这使得模型能够更好地响应指令,并减少对少样本示例的需求(Ouyang 等,2022;Wei 等,2021;Sanh 等,2021,及其他)。
本文从多个方面推进了指令微调的研究。首先,我们研究了扩展对指令微调的影响。实验表明,指令微调在任务数量和模型规模方面具有良好的扩展性。它们的扩展行为表明,未来的研究应进一步扩大任务数量和模型规模。其次,我们研究了微调对模型执行推理任务能力的影响。实验表明,虽然之前的指令微调方法未包含链式思维(CoT;Wei 等,2022b)会严重降低在CoT评估中的性能,但在微调混合数据中仅加入九个CoT数据集即可在所有评估中实现更好的性能。
基于这些发现,我们训练了Flan-PaLM模型,使用了一个5400亿参数的模型,将微调任务数量增加到1.8K,并包含CoT数据。Flan-PaLM在多个基准测试中超越了PaLM,达到了新的最先进水平。例如,Flan-PaLM改进的推理能力使其能够利用CoT和自一致性(Wang 等,2022c)在Massive Multi-task Language Understanding(MMLU;Hendrycks 等,2020)上达到75.2%的准确率。与PaLM相比,Flan-PaLM还提升了多语言能力,例如在单样本TyDiQA(Clark 等,2020)上绝对提升了14.9%,在低资源语言的算术推理(Shi 等,2022)上提升了8.1%。在人类评估中,Flan-PaLM在一组具有挑战性的开放式生成问题上显著优于PaLM,表明其可用性得到了提升。此外,我们还发现指令微调在多个负责任的人工智能评估基准上也能提升性能。
此外,我们还对Flan-T5模型(80M到11B)进行了指令微调。这些检查点具有强大的零样本、少样本和CoT能力,优于之前的公开检查点,如T5(Raffel 等,2020)。例如,Flan-T5 11B在某些具有挑战性的BIG-Bench任务(Srivastava 等,2022)上相比T5 11B实现了两位数的性能提升,甚至超越了PaLM 62B。总体而言,我们的结果强调了指令微调如何在一系列模型、提示设置和评估任务中提升性能。
2 Flan微调
我们在多种数据源(图2)上使用多种指令模板类型(图3)进行指令微调。我们将这种微调过程称为Flan(Finetuning language models;Wei 等,2021),并在微调后的模型名称前加上“Flan”(例如,Flan-PaLM)。我们展示了Flan在多种模型规模和架构上的有效性(表2)。
2.1 微调数据
任务混合。先前的研究表明,增加指令微调中的任务数量可以提高对未见任务的泛化能力(Wei 等,2021;Sanh 等,2021,及其他)。在本文中,我们通过结合来自先前工作的四个任务混合集(Muffin、T0-SF、NIV2和CoT)将微调任务数量扩展到1,836个,如图2所示。Muffin(80个任务)包括来自Wei等(2021)的62个任务以及我们在本工作中新增的26个任务,涵盖对话数据(Byrne 等,2019;Anantha 等,2021;Dai 等,2022)和程序合成数据(Yasunaga 和 Liang,2020;Li 等,2022)。T0-SF(193个任务)包括来自T0(Sanh 等,2021)的任务,这些任务与Muffin中使用的数据不重叠(SF表示“sans Flan”)。NIV2(1554个任务)包括来自Wang等(2022c)的任务。
链式思维(CoT)微调混合数据。第四种微调数据混合集(推理)涉及CoT注释,我们用它来探索在CoT注释上进行微调是否能提高对未见推理任务的性能。我们从先前的工作中创建了一个包含九个数据集的新混合集,这些数据集的训练语料库由人工评分者手动编写了CoT注释。这九个数据集包括算术推理(Cobbe 等,2021)、多跳推理(Geva 等,2021)和自然语言推理(Camburu 等,2020)等任务。我们为每个任务手动编写了十个指令模板。数据卡片见附录F。
模板和格式化。对于Muffin、T0-SF和NIV2,我们使用任务创建者提供的指令模板。对于CoT,我们为九个数据集中的每一个手动编写了大约十个指令模板。为了创建少样本模板,我们编写了多种示例分隔符(例如,“Q:”/“A:”),并在示例级别随机应用它们。图3展示了带有和不带有示例、以及带有和不带有CoT的格式化示例。
2.2 微调过程
在本文中,我们在多种模型系列上应用指令微调,包括T5(Raffel 等,2020)、PaLM(Chowdhery 等,2022)和U-PaLM(Tay 等,2022b)。这些模型系列涵盖了从Flan-T5-small(8000万参数)到PaLM和U-PaLM(5400亿参数)的不同规模。对于每个模型,我们采用相同的训练过程,除了少数超参数:学习率、批量大小、dropout和微调步数。我们使用恒定学习率调度,并使用Adafactor优化器(Shazeer 和 Stern,2018)进行微调。我们使用打包(Raffel 等,2020)将多个训练示例组合成一个序列,使用序列结束标记将输入与目标分开。应用掩码以防止标记跨越打包示例边界相互关注。每个模型的微调步数、学习率、批量大小和dropout值见附录E。对于每个模型,我们使用单个检查点进行所有评估;最佳步数是基于对保留任务的定期评估(每2k到10k步,取决于模型规模)选择的,并且在给定模型的所有消融运行中使用相同的检查点步数。值得注意的是,微调使用的计算量相对于训练计算量仅占很小一部分,如表2所示。例如,我们仅使用0.2%的预训练计算量来对Flan-PaLM 540B进行指令微调(约512个v4 TPU芯片运行37小时)。我们使用基于JAX的T5X框架(Bradbury 等,2018;Roberts 等,2022)。
2.3 评估协议
评估基准。我们重点关注未包含在微调数据中的保留任务的性能。我们对Flan-PaLM在世界知识和推理任务上的整体能力感兴趣。因此,我们在多种不同的基准上评估模型,包括多语言基准。我们没有使用Brown等(2020)的评估集,因为几乎所有那些任务的训练集都包含在我们的微调混合数据中。相反,我们使用以下具有挑战性的基准,当前的语言模型在这些基准上的表现仍远低于人类专家评分者。(1)MMLU(Hendrycks等,2020)包括来自57个任务的考试问题,如数学、历史、法律和医学。(2)BBH包括来自BIG-Bench(Srivastava等,2022)的23个具有挑战性的任务,PaLM在这些任务上的表现低于人类评分者的平均水平(Suzgun等,2022)。(3)TyDiQA(Clark等,2020)是一个涵盖8种类型多样语言的问答基准。(4)MGSM(Shi等,2022)是一个多语言数学应用题基准,数据来自Cobbe等(2021)并手动翻译成10种语言。这些基准也在PaLM论文(Chowdhery等,2022)中使用,该论文未发现与预训练数据存在任何有意义的数据污染,这与之前工作中的数据污染分析一致(Brown等,2020;Wei等,2021;Du等,2022)。负责任的人工智能评估在附录C中讨论。
评估方法和指标。对于MMLU和BBH,我们评估了通过直接提示(模型直接给出答案;Brown等,2020;Srivastava等,2022)和链式思维(CoT)提示(模型在给出最终答案前必须提供推理链;Wei等,2022b)的能力。对于TyDiQA,我们仅测量直接提示的精确匹配分数,因为突出显示包含正确答案的段落部分可能不需要复杂的推理。对于MGSM,我们仅测量CoT提示的准确性,因为直接提示的性能非常低。对于所有基准,我们使用给定的少样本示例,示例数量遵循先前的工作:MMLU为五样本,BBH为三样本,TyDiQA为单样本,MGSM为八样本。对于给定模型,我们还报告了一个“归一化平均值”指标,遵循BIG-Bench中的“归一化优选指标”(Srivastava等,2022)。我们的归一化平均值指标是六个归一化分数的宏观平均值:MMLU-直接、MMLU-CoT、BBH-直接、BBH-CoT、TyDiQA-直接和MGSM-CoT。每个基准中所有任务的结果见附录D。一些负责任的人工智能基准使用附录C中描述的生成任务的额外方法。
3 扩展到5400亿参数和1.8K任务
我们首先研究了在(1)模型规模和(2)微调任务数量方面的扩展对保留任务性能的影响。我们通过在三种PaLM模型规模(8B、62B和540B)上进行实验来扩展模型规模。为了扩展任务数量,我们依次添加任务混合集,从任务最少的混合集开始,逐步增加到任务最多的混合集:CoT、Muffin、T0-SF和NIV2。
图4展示了这两个变量的扩展对保留基准归一化平均值的联合影响。各个基准的结果见表3。首先,我们可以看到,对于所有三种模型规模,多任务指令微调相比未微调的模型显著提升了性能,性能提升范围在9.4%到15.5%之间。
其次,增加微调任务数量可以提高性能,尽管大部分改进来自于使用最多282个任务。对于超过282个任务后性能提升较小的现象,有两种可能的解释。一种解释是额外的任务多样性不足,因此未能为模型提供新的知识。另一种解释是,多任务指令微调的大部分收益来自于模型学习更好地表达其从预训练中已经掌握的知识,而超过282个任务并没有带来太多帮助。第二种解释可能更合理,因为预训练数据包含7800亿个token,而指令微调仅使用了14亿个token(占预训练token的0.2%)。
最后,我们发现,将模型规模扩大一个数量级(即从8B到62B,或从62B到540B)显著提升了微调和未微调模型的性能。需要注意的是,确定指令微调对小模型还是大模型的改进更大(与未微调的基线相比)可能较为复杂。例如,尽管8B模型的绝对增益大于540B模型(8B为15.5%,540B为9.4%),但540B模型的错误率相对减少幅度更大(540B为18.4%,8B为16.6%)。
绘制这些扩展曲线为我们提供了关于进一步扩展模型规模和任务数量如何提升性能的洞察。将模型规模再扩大一个数量级(尽管具有挑战性)预计会带来显著的性能提升。扩展微调任务数量也应能提高性能,尽管可能只是逐步的改进。总体而言,绘制的扩展曲线表明,未来的工作应继续扩展指令微调。
4 使用链式思维注释进行微调
Flan微调的目标是生成一个在多种评估中表现更好的检查点,这包括多步推理能力以及传统的NLP任务。在本节中,我们探讨了在指令微调混合数据中包含链式思维(CoT)数据的效果。首先,我们展示了Flan-PaLM在多个基准测试中超越先前模型的改进推理能力。然后,我们通过消融实验分析了CoT微调数据,结果表明,没有CoT的指令微调实际上会降低推理能力,而仅包含九个CoT数据集即可在所有评估中提升性能。最后,我们展示了CoT微调通过在具有挑战性的BIG-Bench任务中使用“让我们逐步思考”来实现零样本推理的能力。
4.1 使用链式思维微调提高了对保留任务的推理能力
我们首先展示了在微调混合数据中包含九个带有链式思维(CoT)注释的数据集可以提高推理能力。表4显示,Flan-PaLM在四个保留评估基准上的CoT提示能力优于PaLM。对于BBH,我们遵循Suzgun等(2022)的协议,将任务分为NLP任务和算法任务。
表4还展示了如何将CoT提示与自一致性(SC;Wang等,2022b)结合,以在多个基准测试中实现新的最先进性能。例如,在MMLU基准测试(Hendrycks等,2020)中,Flan-PaLM 540B达到了75.2%。这显著优于之前的模型(PaLM = 69.3%,code-davinci-002 = 68.3%,Chinchilla = 67.6%)。在多语言数学问题基准MGSM上,使用CoT + SC的Flan-PaLM显著提升了SOTA性能,即使在低资源语言上也表现出色,例如在孟加拉语上达到69.6%。相比之下,使用CoT + SC的PaLM在法语和德语等高资源语言上仅分别达到63.6%和61.2%。最后,在GSM8K(Cobbe等,2021,表中未显示)上,使用CoT + SC的Flan-PaLM实现了新的SOTA,达到83.9%,但需要注意的是,GSM8K的训练数据集包含在指令微调混合数据中。
我们还注意到,Flan-PaLM在某些专门模型上并未达到SOTA(最先进水平)。例如,在BBH-algo(包含仅需要符号操作的任务,例如保持一组乱序对象的顺序、按字母顺序对单词列表进行排序)上,即使使用CoT + SC,Flan-PaLM也未能超越code-davinci-002。此外,尽管Flan-PaLM在单样本TyDiQA上比PaLM提升了14.9%,但仍未达到在TyDiQA训练集上微调的ByT5的水平(Xue等,2022)。
4.2 需要一些链式思维数据以保持推理能力
接下来,我们通过消融实验分析了在指令微调中仅包含九个CoT数据集的效果。我们将评估分为保留的CoT基准(MMLU、BBH和MGSM)和保留的非CoT基准(MMLU、BBH和TyDiQA),并分别计算CoT和非CoT的归一化平均值。在图5-左中,结合非CoT和CoT微调在保留的CoT基准上的性能优于仅使用CoT微调。图5-右证实,正如预期的那样,与非CoT微调相比,结合CoT和非CoT微调不会影响非CoT任务的性能。
一个重要的问题是,图5-左还表明,为了保持这种推理能力,微调一些CoT示例是至关重要的,因为仅对非CoT数据进行微调会显著降低CoT任务的性能,如绿线所示。这种性能下降可能令人惊讶,因为之前的多项研究发现,指令微调可以提高对未见任务的性能(Wei等,2021;Sanh等,2021;Wang等,2019a;Min等,2022,及其他)。然而,之前的工作仅评估了保留的NLP任务(例如,微调除情感分析之外的所有任务,然后在情感分析基准上进行评估),而且之前的模型通常规模较小,无法成功进行CoT推理。综合来看,这一消融实验可以解释为:当未见任务与微调任务处于相同的提示范式(即非CoT或CoT)时,指令微调可以提高对未见任务的性能。因此,需要同时包含非CoT和CoT数据,以提升模型在所有评估中的能力。
4.3 解锁零样本推理
在CoT数据上进行指令微调的另一个最终好处是,无论是否使用示例,生成的模型都能够在零样本设置中执行CoT推理。这种零样本设置很重要,因为它测试了模型在没有少样本CoT示例的情况下生成自身推理技能的能力,而这通常需要大量的提示工程来正确构建。
图6显示,在包含23个未见挑战性BIG-Bench任务的BBH基准测试中,Flan-PaLM模型通过利用“让我们逐步思考”这一短语激活的CoT推理(Kojima等,2022),能够实现性能提升。相比之下,未经微调的PaLM无法生成能够解决这些问题的CoT。图7展示了PaLM和Flan-PaLM在零样本CoT中的三个示例。
尽管PaLM在零样本CoT上的负面结果可能与Kojima等(2022)的研究结果看似矛盾,但仔细比较后发现它们并不矛盾。该论文中大多数成功的零样本CoT实验实际上利用了InstructGPT(Ouyang等,2022),而InstructGPT经过了指令微调(我们假设这种指令微调包含了一些类似CoT的数据)。在未经微调的PaLM上成功进行的零样本CoT实验仅针对数学应用题,这与BBH中的问题类型有显著不同。
5 综合总结
基于之前关于扩展任务数量和包含链式思维(CoT)数据的结果,我们现在通过将指令微调应用于不同规模、架构和训练目标的多种模型,展示其通用性。除了PaLM系列模型外,我们还对具有编码器-解码器架构的T5模型进行了指令微调,这与PaLM的仅解码器架构不同。作为PaLM 62B模型的扩展版本,我们对cont-PaLM进行了指令微调,这是一个从PaLM-62B初始化并额外预训练了5000亿token的62B PaLM模型(Chowdhery等,2022)。最后,我们对U-PaLM进行了指令微调,这是一个从PaLM-540B初始化并使用UL2目标额外预训练了2万步的540B PaLM模型(Tay等,2022a,b)。
这些评估结果如表5所示。指令微调显著提升了所有模型类型的归一化平均性能。对于未进行指令微调的T5模型,我们使用了LM-adapted模型,这些模型是通过在C4数据集的1000亿额外token上以标准语言建模目标训练T5生成的(Lester等,2021)。鉴于我们的评估基准的难度以及T5并非多语言模型的事实,T5模型相比其未微调模型从指令微调中受益最大。这些结果在某些基准测试中表现非常突出——例如,Flan-T5-XL仅有30亿参数,但在MMLU上达到了52.4%的分数,超过了GPT-3 175B的43.9%。另一个亮点是,我们在本文中实现的最强整体模型结合了指令微调和U-PaLM模型中使用的UL2持续预训练。这一结果表明,指令微调和UL2持续预训练是互补的计算高效方法,可以在不增加模型规模的情况下提升语言模型的性能。负责任的人工智能基准测试结果单独报告在附录C中。
6 开放式生成的可用性评估
除了NLP基准测试外,语言模型还能够生成对开放式请求的长篇回答。标准的NLP基准测试及其使用的自动评估指标不足以衡量人类对这些开放式回答的偏好(Ouyang等,2022)。因此,我们进行了一项人工评估,研究指令微调对模型生成开放式回答能力的影响。为此,我们创建了一个包含190个示例的评估集。该评估集包括以零样本方式向模型提出的问题,涵盖五个具有挑战性的类别,每个类别包含20个问题:创造力、上下文推理、复杂推理、规划和解释。对于其中60个示例(来自复杂推理、规划和解释类别),我们创建了带有链式思维(CoT)触发短语(例如“让我们逐步思考”)的变体,作为对CoT微调是否能够实现零样本推理的另一种评估,这在第4.3节中进行了定量评估。除了上述160个零样本输入外,我们还包含了30个测试少样本能力的输入,未进行指令微调的强大语言模型在这些任务上表现良好(Chowdhery等,2022)。
在此评估中,我们比较了PaLM 540B和Flan-PaLM 540B模型。对于这两个模型,我们使用温度采样(τ = 0.7)随机生成五个回答,然后根据未进行长度归一化的对数概率得分对其进行排序。我们选择得分最高的回答,并在过滤步骤中移除得分高于中位数得分一半的生成结果,这成功去除了大部分包含不良重复的生成结果。例如,如果五个生成结果的中位数对数概率得分为-20,那么得分为-3的生成结果可能包含不良重复,我们会将其过滤掉。然后,我们将PaLM和Flan-PaLM的输出呈现给人工评分者,并要求他们根据期望选择回答。每对输出由一个评分者打分。人工评分者的说明见附录I。
人工评估的结果如图8所示——在190个示例中,Flan-PaLM的生成结果在79%的情况下被优先选择。在每个零样本设置中,Flan-PaLM均以较大优势被优先选择,而在使用CoT触发短语的输入中,评分者对Flan-PaLM的偏好进一步增加了约10%。至于少样本设置,Flan-PaLM未出现性能下降。
指令微调模型在开放式零样本输入上表现更好的能力与Ouyang等(2022)的研究一致,该研究表明,通过一组标注者演示对语言模型进行微调,以及从人类反馈中进行强化学习,可以改善用户提示分布上的人工评估。此外,对PaLM生成结果的检查表明,尽管在NLP基准测试中表现强劲,但仅通过下一个token预测目标进行预训练不足以实现良好的零样本可用性。例如,对PaLM不良行为的定性检查包括:(1)继续生成相关文本而不是回答问题,(2)对输入问题进行轻微修改后重复,(3)不知道何时停止生成文本。这可能是由于在预训练中未使用序列结束token导致的,图9展示了一些此类错误的示例。
7 讨论
在本研究中,我们通过以下方式扩展了指令微调:(1)增加微调任务的数量,(2)扩大模型的规模,以及(3)在链式思维(CoT)数据上进行微调。由此产生的指令微调模型在一系列少样本、零样本和CoT评估中表现出性能提升。基于此,我们总结了本文的主要结论。
指令微调的扩展曲线。我们在第3节中展示了指令微调的两个关键组成部分——模型规模和微调任务数量——对性能的提升作用。先前的研究要么扩展了模板数量(Puri等,2022),要么扩展了任务数量(Wang等,2022c中扩展到1.6K任务,但使用的是30亿参数的模型),或者扩展了模型规模(Wei等,2021中扩展到1370亿参数的模型,但仅使用了62个任务)。我们绘制了这两个组成部分的扩展曲线,结果表明,尽管扩展任务数量的回报逐渐减少(但仍为正值),但扩展模型规模和微调任务数量预计会继续提升性能。此外,指令微调与未微调模型之间的性能提升幅度并未减小,这表明指令微调在未来模型中可能仍然具有重要意义。
CoT微调对推理能力至关重要。尽管先前的指令微调研究表明,在非CoT任务上进行微调可以提高对未见非CoT任务的性能,但我们发现这实际上会导致CoT任务的性能下降。为了解决这种CoT性能下降的问题,我们联合微调了非CoT和CoT数据(第4节)。这种联合微调显著提升了CoT任务的性能,同时保持了非CoT任务的性能,使得单一模型能够在所有评估中表现出色。虽然先前的研究表明,CoT微调可以提高在微调期间保留的任务的性能(Ling等,2017;Cobbe等,2021;Zelikman等,2022;Huang等,2022,及其他),但我们展示了在大模型上进行CoT微调可以提高对未见任务的性能,同时保持对非CoT任务的性能改进。
指令微调在多种模型中具有通用性。在第5节中,我们通过将指令微调应用于具有不同架构(仅解码器、编码器-解码器)、规模(从T5-80M到PaLM-540B)和预训练目标(因果语言模型、片段损坏、前缀语言模型+片段损坏)的模型,观察到了指令微调的通用性。这一发现与先前的研究一致,这些研究证明了指令微调在T5模型(Sanh等,2021;Wang等,2022c;Scialom等,2022)或仅解码器语言模型(Wei等,2021;Ouyang等,2022)上的有效性。此外,我们还展示了指令微调与其他模型适应技术(如UL2R,Tay等,2022b)的良好结合,从而产生了我们在本研究中训练的最强模型(Flan-U-PaLM)。
指令微调提高了可用性并减轻了一些潜在危害。直接使用预训练检查点对非专家来说可能具有挑战性,因为仅通过下一个token预测目标训练的模型不知道何时停止生成,并且可能会犯诸如继续生成用户输入而不是回应用户的错误。在第6节中,我们看到在一组开放式评估中,Flan-PaLM的输出在人类评分中显著优于PaLM的输出,尤其是在复杂推理、规划和解释等CoT任务中。Flan-PaLM在多个负责任的人工智能基准测试中优于PaLM,特别是在衡量有害语言的基准测试中。这些结果与InstructGPT(Ouyang等,2022)的研究结果一致,表明微调模型生成的输出更符合人类偏好。模型的零样本可用性对于更广泛采用不需要提示工程或少样本示例的语言模型非常重要。附录中包含了一份模型卡片(Mitchell等,2019)。
指令微调具有相对较高的计算效率。尽管扩展语言模型的规模已被证明能够可靠地提高性能,但这需要大量的计算资源。因此,开发计算效率高的技术非常重要;这些技术可以利用现有的检查点,而不会改变模型的推理成本。指令微调以相对较少的计算资源提升了模型的性能——例如,对于PaLM 540B,指令微调仅需要预训练计算量的0.2%,但将评估基准的归一化平均值提高了9.4%。此外,使用指令微调的较小模型有时可以超越未使用指令微调的较大模型。例如,从表5中可以看到,Flan-PaLM 62B在TyDiQA上优于PaLM 540B(58.7% vs. 52.9% EM),而Flan-T5 11B在BBH-direct上优于PaLM 62B(43.7% vs. 37.5%)。
总结,上述证据强调了指令微调如何在一系列少样本、零样本、CoT和开放式生成评估中提升性能。指令微调在多种模型中具有通用性,并且与其他技术(如UL2R)结合良好。所有这些优势都伴随着相对于模型预训练而言较小的计算成本。基于这些原因,我们建议几乎所有预训练语言模型都采用指令微调。
8 相关工作
我们的研究涉及多个广泛的研究领域,包括多任务学习、指令、提示、多步推理和大规模语言模型(Radford等,2019;Brown等,2020;Aghajanyan等,2021;Chowdhery等,2022;Lewkowycz等,2022,及其他)。我们在本文中探索的模型结合了基于指令的微调(Wei等,2021;Sanh等,2021;Ouyang等,2022;Min等,2022)与基于推理链的提示和微调(Ling等,2017;Cobbe等,2021;Wei等,2022b,及其他)。在本节中,我们将讨论本文与最相关工作的联系。
指令微调。本文属于一个新兴的研究方向,即通过指令微调预训练模型以提高其性能和可用性(Wei等,2021;Sanh等,2021;Ouyang等,2022,及其他)。我们在多个方面扩展了这一领域的研究。首先,在微调数据方面,我们的模型受益于先前工作的混合数据集(Wang等,2022c;Sanh等,2021;Wei等,2021),以及我们添加的链式思维、对话和代码数据集。其次,先前的研究主要关注较小的语言模型,如30亿参数模型(Wang等,2022c)、110亿参数模型(Sanh等,2021)和1370亿参数模型(Wei等,2021),而本文扩展到5400亿参数,并深入研究了语言模型扩展的影响。最后,先前的研究大多在零样本(无示例)或少样本(有示例)设置下进行微调(Zhong等,2021;Wei等,2021;Sanh等,2021;Wang等,2022a;Ye等,2021;Mishra等,2021;Min等,2022;Wang等,2022c),而我们的方法在两种格式的混合数据上进行微调,以同时支持零样本和少样本。
通过微调实现推理。本文还展示了在包含CoT注释的数据集混合上进行大规模语言模型微调可以提高对未见推理任务的性能。先前的研究要么在单一推理数据集上微调语言模型(Ling等,2017;Camburu等,2018;Cobbe等,2021;Nye等,2021;Zelikman等,2022,及其他),要么专注于规模较小的模型(Ling等,2017;Camburu等,2018;Rajani等,2019;Talmor等,2020;Zelikman等,2022)。最相关的工作可能是Huang等(2022),其研究表明通过在多个自生成的合成CoT数据集上进行多任务微调可以提高推理性能。与这项工作相比,我们联合微调了CoT和非CoT数据,并展示了单一检查点可以同时适用于两种设置。
提高语言模型性能的计算高效方法。扩展语言模型在许多方面提高了性能,但需要大量的计算资源(Kaplan等,2020;Brown等,2020;Bommasani等,2021;Wei等,2022a,及其他)。作为更广泛的比较,我们的研究属于一个不断增长的研究方向,该方向旨在不显著增加计算量的情况下改进语言模型(Hoffmann等,2022;Padmakumar等,2022)。在这方面,最相似的工作可能是UL2R(Tay等,2022b),它也进行了额外的训练,但使用了不同的目标(因果语言模型+片段损坏)且没有额外的数据。我们展示了UL2R和指令微调可以结合使用,Flan-U-PaLM在本文训练的所有模型中实现了最强的性能。其他在不扩展计算量的情况下改进语言模型的研究包括更好的架构(So等,2021)、改进的训练目标(Tay等,2022a)和更好的数据(Du等,2022)等。
9 结论
在本文中,我们扩展了指令微调,并通过以下方式训练了Flan-PaLM:(1)扩展到5400亿参数的语言模型,(2)扩展到1.8K个微调任务,(3)在微调中包含链式思维(CoT)数据。实验表明,随着模型规模和微调任务的增加,模型性能显著提高。此外,尽管先前的指令微调方法会降低CoT任务的性能,但联合微调CoT数据提高了所有评估的性能。Flan-PaLM在多个基准测试中达到了最先进的性能,例如在五样本MMLU上达到75.2%。Flan-PaLM还提高了可用性——例如,它可以在不需要提示工程或少样本示例的情况下执行零样本推理。此外,我们展示了指令微调与多种模型规模、架构和预训练目标兼容。为此,我们公开发布了Flan-T5模型,这些模型大幅超越了基线T5模型。
附录
A 常见问题
A.1 指令微调模型在单任务微调中表现更好吗?
在本文中,我们展示了指令微调模型在少样本提示设置中对未见任务表现更好。我们未在本文中评估指令微调模型在单任务微调中的表现,但一些相关研究可能提供了有用的线索。
- Aghajanyan等(2021)表明,大规模多任务微调(无指令)阶段提高了RoBERTa(Liu等,2019)和BART(Lewis等,2019)等模型在一系列下游微调任务中的性能。
- Wei等(2021)表明,指令微调模型在未见任务的提示调优(Lester等,2021)中表现更好。
我们将针对我们特定模型的这一研究留作未来工作。我们还指出,像PaLM和U-PaLM 540B这样的模型理想情况下应保留多任务能力,因为如此大的模型仅执行单一任务是低效的。
A.2 使用CoT提示进行评估是否总能提高性能?
CoT是否能提高性能高度依赖于任务。正如Wei等(2021)和Kojima等(2022)所指出的,当任务需要多步推理并且使用足够大的语言模型时,CoT比直接答案提示的帮助最大。这类任务包括需要多步推理的复杂数学问题或符号操作问题。
在表5中,与直接提示相比,CoT并未提高MMLU的性能。这可能是因为MMLU主要由不需要推理的知识回忆任务组成。然而,当我们将CoT提示与自一致性结合时,可以提高性能,如表4所示。此外,模型规模对CoT的影响也可以在表5中观察到。对于BBH,未进行指令微调的模型仅在62B或更大规模时才能从CoT中受益。这与先前观察到的CoT是语言模型扩展的涌现能力(Wei等,2022a)一致。对于BBH上的指令微调模型,仅Flan-PaLM 540B、Flan-cont-PaLM 62B和U-PaLM 540B从CoT中受益。
A.3 指令微调对较大模型的性能提升更多还是更少?
在本文中,我们展示了在多种模型规模和架构中,指令微调相比未指令微调提高了性能。然而,微调效果是否随规模增加而增强,还受到未指令微调基线性能也随规模提高的影响。例如,可以比较表3中的8B和540B模型。指令微调将8B模型在四个数据集上的归一化平均得分提高了15.5%,而540B模型提高了9.4%。然而,540B模型的基线得分也更高,因此计算错误率的相对减少可能更相关,540B模型的错误率减少了18.4%,而8B模型减少了16.6%。
A.4 微调中使用的CoT混合数据有多少示例?
CoT混合数据中共有74,730个示例。以下是每个数据集的训练示例数量:
-
AQuA(2,715)
-
CREAK(6,910)
-
ECQA(7,110)
-
ESNLI(36,170)
-
GSM8K(7,470)
-
QASC(1,080)
-
QED(5,145)
-
Sensemaking(6,070)
-
StrategyQA(2,060)
B 定性示例
关于对具有挑战性指令的精选示例,请参见图10和图11。
C 表征偏见和毒性
在本节中,我们研究了指令微调对衡量终端用户潜在危害的基准的影响,包括毒性语言危害、表征偏见以及特定形式的性别偏见。我们还探讨了指令微调对改进与安全分类器相关的零样本和少样本能力的影响。
C.1 开放式生成中的毒性
为了衡量Flan-PaLM中毒性生成的普遍性,我们首先使用Real Toxicity Prompts数据集(Gehman等,2020)。为了与PaLM进行比较,我们使用了Chowdhery等(2022)中描述的相同实现,并进行了一些与指令微调相关的小调整,具体如下。简而言之,我们均匀采样了10k个提示,并使用top-
k
k
k采样(
k
=
40
k=40
k=40)和温度为1.0为每个提示生成25个续写。我们依赖Perspective API
6
^6
6来计算续写的毒性概率。对于PaLM,我们仅计算第一个完整句子续写的毒性概率,而对于Flan模型,我们评分整个续写,因为Flan模型会发出[EOS]标记以停止解码。
在表6中,我们观察到,在所有规模下,经过指令微调的Flan模型生成毒性续写的概率较低,并且这种效果适用于两组输入提示。
在图12中,我们进一步使用Chowdhery等(2022)中的方法(改编自Rae等,2021b)将Flan模型与PaLM进行比较。该扩展图显示了续写的平均毒性概率(TPC)作为提示毒性概率(TPP)分箱的函数,针对不同模型规模。我们将PaLM-540B作为代表性基线,并显示Flan模型在所有规模下的TPC较低,但Flan-PaLM模型规模没有明显影响。有趣的是,在高提示毒性下,Flan-T5-XXL的表现似乎与Flan-PaLM模型不同,甚至在某些情况下TPC比Gehman等(2020)中的人类基线更差。一种可能性是,输入提示的毒性对Flan-T5-XXL响应的毒性影响比Flan-PaLM模型更显著,但我们将其进一步研究留作未来工作。
C.2 包含身份术语的提示中的毒性
我们在一个表征偏见基准上进行了另一项毒性退化分析,并改进了Chowdhery等(2022)中的分析。该表征偏见基准由跨多个身份轴(如性别、种族、宗教、职业和国家)构建的模板短语组成。我们利用了Gopher论文(Rae等,2021b)中的模板和身份术语。
我们在一个表征偏见基准上进行了另一项毒性退化分析,并改进了Chowdhery等(2022)中的分析。该表征偏见基准由跨多个身份轴(如性别、种族、宗教、职业和国家)构建的模板短语组成。我们利用了Gopher论文(Rae等,2021b)中的模板和身份术语。对于每个维度,我们使用细粒度的身份组列表填充模板,并包含一个中性基线。对于每个输入提示,我们使用top- k k k采样( k = 40 k=40 k=40)和温度为1.0生成50个续写,并依赖Perspective API计算续写的毒性分数。
为了报告关于身份术语提示的毒性退化倾向,我们测量了毒性概率>=0.5的模型续写的百分比。我们将不同身份组之间续写毒性的差异视为一种可能泛化到其他生成场景的偏见形式。我们将这一研究留作未来工作。在图13中,我们观察到,在指令微调模型中,毒性语言危害和模型偏见在各个身份维度上均有所减少。尽管毒性续写的百分比整体下降,但我们进一步分析了指令微调对毒性响应严重程度的影响。图14报告了按身份组划分的毒性分数分布,涵盖三个身份维度:种族、宗教和性别。尽管所有群体的毒性整体下降,但尾部毒性仍然持续较高。此外,Flan模型似乎更倾向于以身份组偏见的方式生成毒性续写,这与PaLM中发现的偏见相似。例如,犹太教的上四分位数毒性仍然高于其他宗教群体。在性别维度上也观察到了相同的模式。这表明继续研究基础语言模型中的偏见非常重要(Weidinger等,2022;Bender等,2021)。
C.3 毒性内容分类能力
预训练语言模型检测毒性文本的能力在许多下游应用中非常重要,例如在评论审核领域检测滥用行为。在前一节中观察到毒性退化的普遍性降低后,我们现在研究Flan模型的少样本分类能力,并将其与其他最新模型进行比较。
为此,我们利用了CivilComments数据集(Borkan等,2019b),该数据集包含由众包工作者注释的英文评论。我们使用Schick等(2021)提出的方法和模板进行零样本和十样本分类。该方法包括用包含评估样本的输入提示模型(在少样本场景中前面加上上下文示例),然后提出问题“上述文本是否包含粗鲁、仇恨、攻击性、不尊重或不合理的语言?”(根据Perspective API 7的定义),并比较“是”和“否”续写的对数似然。遵循与Rae等(2021b)类似的实验设置,评估在CivilComments数据集测试集的10,000个随机样本上进行,而少样本示例则从训练集中以平衡的方式抽取(即相同数量的毒性和非毒性样本)。我们使用归一化对数似然作为分类分数,报告模型的AUC-ROC。鉴于评估数据中的类别不平衡,准确性不被视为一个好的参考指标(Borkan等,2019a)。我们将更详细指标的分析留作未来工作。
表7显示,毒性分类能力通过指令微调显著提高,我们在零样本和少样本分类中均观察到一致的改进。在零样本分类场景中,所有指令微调模型的表现均优于基础模型,即使与它们在十样本场景中的表现相比也是如此。这些结果可以被视为在语言模型用于毒性检测方面迈出的一步。然而,这些模型尚未与专门为此任务设计的系统(如Perspective API)相媲美,后者在同一评估数据集上的AUC达到97.0%。
C.4 性别与职业偏见
Winogender(Rudinger等,2018)是一个衡量不同代词共指解析准确性的基准,使用可能揭示某种性别偏见的句子。我们报告生成设置下的结果,而不是倾向于高估模型性能的多项选择评分框架。指令微调提高了所有PaLM模型的性能,尤其是在零样本任务中。有趣的是,规模对Flan-PaLM模型的影响并不呈现明显的线性关系,图15显示Flan-T5-XXL优于所有Flan-PaLM变体。
我们还报告了对刻板印象和陷阱子集(Rudinger等,2018)以及中性分割(包括中性代词“they”、“their”、“them”)的分解准确性。对于所有少样本设置,示例从数据集中随机选择,排除正在评估的示例。
我们发现,Flan-PaLM生成的响应通常带有冠词前缀(例如“the engineer”),尤其是在零样本设置中。在Flan-PaLM中,78%到86%的响应以及96%的Flan-T5-XXL响应中发现了这一点。在调整精确字符串匹配评分以忽略冠词后,Flan-PaLM在每个规模上的表现均优于PaLM。值得注意的是,Flan-PaLM在所有情况下都接近人类基线性能,即使在最小的8B模型规模和零样本设置中也是如此。
在分解分析中,我们发现指令微调模型在刻板印象示例上表现最佳,但在陷阱示例上相比所有PaLM模型有所改进。在Flan-T5-XXL中,这一改进在使用“she”代词的陷阱示例上尤为显著;其他模型可能仍然依赖于与训练数据中代词分布相关的浅层启发式方法(Chowdhery等,2022)。在图16中,这些广泛模式似乎在模型参数和提供的少样本示例数量之间保持一致。
C.5 翻译中的性别误判
我们还评估了指令微调对翻译明确编码性别的句子时可能产生的性别误判危害的影响。我们评估了从26种源语言到英语的翻译,涵盖了不同资源水平的语言(附录C.5),包括在数字空间中代表性不足的极低资源语言(Bapna等,2022)。评估集的构建使得源语言输入仅包含一个性别化的实体,从而可以通过扫描英语翻译中人称代词的语法性别表达来进行自动评分。我们依赖不同的评估集来适应不同语言编码性别的多种方式。
评估集。完整的评估包括1,954个段落,每个段落大约有1-10个句子,并来自四个不同的来源。SynthBio评估集是从(Yuan等,2021)的一个子集中挖掘的,其中包括合成的英语传记段落。由于PaLM的预训练数据混合包括多语言维基百科,合成数据避免了来自诸如翻译维基百科传记(Austermann等,2021)等来源的潜在数据污染。我们过滤SynthBio,仅包含编码单一性别化实体并使用二元代词的段落,然后通过机器翻译筛选出部分语言。性别集评估集基于对公开翻译系统的错误分析、专业翻译人员的翻译,并过滤为适合自动评分方法的子集。延迟绑定评估集基于对性别集中翻译错误的错误分析,针对西班牙语中性别信息在段落后期编码的两句段落。它混合使用了家庭名称名词以及Winogender(Rudinger等,2018)中的部分名词。名词编码评估集针对像芬兰语这样的语言,这些语言不在人称代词中编码性别信息,而是通过名词选择(例如“isä”或“äiti”)在词汇上编码性别信息。附录C.5展示了错误和评分的示例。
结果。指令微调对PaLM模型的影响参差不齐,没有明显的影响。所有模型在英语翻译中应包含“she”代词而不是“he”代词的示例上表现较差。这一现象在指令微调中普遍存在,表明需要继续评估和研究预训练语言模型中的偏见形式。在错误分析中,我们还注意到一些潜在的贬低人性危害(Dev等,2021a),这些危害未被这些自动评估指标衡量。例如,将西班牙语中的“Es una buena médica”翻译为“It’s a good doctor.”。有趣的是,Flan-T5-XXL的表现与540B模型相当。未来的分析可能会更广泛地研究指令微调如何影响跨语言的翻译能力(例如,通过BBH中的额外评估来评估生成翻译能力,按语言分解)。
C.6 局限性
除了我们在此测量的内容外,还存在许多潜在的危害和偏见维度,Chowdhery等(2022)中讨论的评估局限性在本工作中同样适用。
毒性语言的自动化测量包含多种形式的噪声和偏见(Xu等,2021;Garg等,2022),并且未考虑对毒性语言的多样化观点(Goyal等,2022;Sap等,2021)。此外,我们强调,本工作中与毒性语言和身份群体相关的改进仅限于偏见子集的身份术语,并且仅针对英语(Smith等,2022;Bhatt等,2022;Dev等,2021b)。
在评估毒性分类时,我们注意到聚合指标的额外局限性(Borkan等,2019a),以及由于对注释的多样化观点而带来的评估挑战(Goyal等,2022;Sap等,2021)。此外,分类器通常通过微调方法或其他参数高效方法构建,我们在此未进行评估。
Winogender仅关注英语中的一种潜在偏见形式,并且仅包含美国的职业统计数据。在此,我们未考虑其他全球文化视角(Hansson等,2021),或与非二元性别表达相关的潜在差异危害(Baumler和Rudinger,2022)。在本工作中,我们仅考察了任务框架的一种形式,这可能无法推广到其他提示或使用场景(Selvam等,2022)。
对于翻译系统中与性别相关的错误,评估未考虑对表达非二元性别身份的人可能造成的差异危害(Dev等,2021a),也未考虑跨语言和文化对代词的不同观点(Lee,2019)。最后,我们注意到,我们的评估仅关注潜在风险的一个子集(Weidinger等,2022),并且我们的评估侧重于模型输出,而未考虑指令微调语言模型所处的更广泛的社会技术背景(Shelby等,2022)。
D 完整实验结果
D.1 MMLU
对于五样本MMLU,我们使用“开发”集作为少样本示例。在此,我们报告了MMLU中各个任务在“验证”集上的表现(参见https://www.tensorflow.org/datasets/community_catalog/huggingface/hendrycks_test)。本文中所有MMLU结果均基于“验证”集,除了表4和表1中的测试集结果。我们用于MMLU的提示可以在https://github.com/jasonwei20/flan-2找到。STEM数据集的提示来自Lewkowycz等(2022),并进行了轻微的格式修正。
D.2 BBH
BBH是由Suzgun等(2022)精选的一组具有挑战性的BIG-Bench任务,这些任务在(Srivastava等,2022)中的模型表现优于人类评分者的平均水平。Suzgun等(2022)引用了23个任务,其中两个任务包含三个子任务。为简化起见,我们将这些子任务视为独立任务并计算未加权平均值。我们使用了Suzgun等(2022)中提供的提示。
D.3 TyDiQA
对于TyDiQA(Clark等,2020),我们遵循Chowdhery等(2022)的协议使用单样本提示。评估指标为精确匹配(EM)。为了计算TyDiQA的平均EM,我们取八种语言EM分数的未加权平均值。英语不包括在内。
D.4 MGSM
对于MGSM(Shi等,2022),我们使用与目标语言相同的示例和推理链(例如,对于中文,我们使用所有中文示例和推理链)。我们使用了Shi等(2022)提供的提示。
E 微调细节
我们发现学习率、批量大小和dropout是指令微调中最重要的超参数。表22列出了本文中研究的所有微调模型的这些值。报告的批量大小是全局批量大小(而非每个设备的批量大小)。由于我们使用了打包(Raffel等,2020),有效批量大小更大。
指令微调的另一个重要超参数是每个任务的采样率。在四个混合数据集(Muffin、T0-SF、NIV2和CoT,定义见图2)中,我们使用示例数量作为每个任务的权重。我们对每个任务应用了最大上限,因为在同一混合数据集中,某些任务的示例数量远多于其他任务,这可能会主导采样。例如,某些WMT翻译数据集有数百万个示例,而BoolQ只有9k个示例。我们对四个混合数据集分别应用了不同的最大上限,总结在表23中。
为了平衡四个混合数据集,我们使用相对权重,确保没有基础任务被重复采样超过一次。在第3节和第4节的扩展和消融实验中,我们分别使用了表23中的比例A。基于这些实验(特别是T0-SF带来的显著收益),我们将混合比例更新为表23中的比例B,并对其余模型进行了微调。
F 微调数据卡片
我们按照Pushkarna等(2021)提出的格式展示数据卡片。
数据集所有者:flan-core@google.com
数据集概述:我们的最终微调任务集来源于FLAN、T0、Natural Instructions的任务组合,以及一些对话、程序合成和链式思维推理任务,如图2所述。我们在表24中提供了具体的引用和来源。所有数据源均为公开可用。我们还从Natural Instructions中移除了所有MMLU任务,以保留其作为57个保留任务的广泛评估基准的角色。总共有1,836个任务。
风险与缓解措施:Flan数据基于公开可用的数据集构建。这些公开数据集中可能存在不必要的数据分布(如偏见),因此Flan中也可能存在类似问题。下游用户应意识到潜在风险。
维护状态:有限维护。数据不会更新,但任何技术问题将得到解决。
维护计划:任何技术问题将得到解决。暂无新版本计划。
版本控制:不会提供新版本。
更新:更新仅限于错误修复。
错误处理:错误处理将根据具体情况考虑。
反馈:发送邮件至lehou@google.com,并抄送flan-core@google.com。
示例:典型数据点。
输入:回答以下问题:谁在新《星球大战》电影中饰演卢克·天行者?
目标:马克·理查德·哈米尔
敏感人类属性:上游数据源可能包含未知的敏感人类属性。
数据分布:图17显示了每个混合数据集中前20个任务类别的数量。图18统计了1,836个任务中出现的语言。大多数任务仅包含一种语言,而许多翻译/本地化相关任务包含两种或更多语言。值得注意的是,总共出现了60种语言,包括许多低资源语言,尽管它们的频率较低。
G 模型卡片
G.1 Flan-PaLM
Flan-PaLM与PaLM模型(Chowdhery等,2022)共享相同的模型架构、实现框架、使用方法和局限性。我们在表25中展示了Flan-PaLM特有的部分模型卡片内容(Mitchell等,2019)。
G.2 Flan-T5
我们在表26中展示了Flan-T5的模型卡片。
H 伦理考虑
Chowdhery等(2022)中的所有考虑事项均适用于指令微调模型。此外,我们注意到,虽然指令微调提高了许多零样本和少样本能力,但下游开发者应考虑所有潜在风险(Weidinger等,2022),并预见到其应用场景中的特定风险(Hasan等,2022;Brey,2012)。与提示、采样和其他缓解措施(例如安全过滤器)相关的设计决策可能会导致新的或不同形式的偏见和危害,这些无法仅通过指令微调模型进行评估。我们建议在部署前采取适当措施评估应用场景中的风险和潜在危害。
I 开放式评估细节
以下是人工评估的注释说明:
我们收集了不同大型语言模型对需要各种形式推理的问题的响应。我们希望您帮助我们对这些响应进行排名。您看到的每个提示都会附带来自(匿名)大型语言模型的响应,这些响应在每一行中都被打乱,因此注释者无法知道它们来自哪个模型。
请完整阅读以下说明。
注释规则:
- 根据哪个响应最能回答输入提示来对响应进行排名。
- 什么是最好的答案?根据(a)答案的正确性,和(b)响应的信息量做出决定。对于(a),您可以搜索网络。总体而言,请根据最有用的响应进行排名,我们将其定义为至少部分正确,并且对提示所要求的内容提供最少信息量的响应。
- 如果两个响应在您看来提供了相同的正确性和信息量,并且没有明显的赢家,您可以将它们排名相同,但请谨慎使用此选项。
- 如果某个响应是荒谬的、无关的、语法混乱/令人困惑的,或者没有明确回应给定的提示,请用“F”(表示失败)标记它,而不是排名。
- 长答案并不总是最好的。如果简洁、连贯的响应至少同样正确且信息量充足,则可能比更长的响应更好。