GPT-4 Technical Report——GPT-4技术报告
周末闲来无事,这里主要是对 《GPT-4 Technical Report》一文的阅读记录,感兴趣的话可以参考一下,如果想要阅读原论文的话可以来这里,如下所示:
摘要
我们报告了GPT-4的开发情况,这是一个大规模的多模态模型,可以接受图像和文本输入并产生文本输出。尽管在许多现实世界场景中GPT-4的能力还不如人类,但在各种专业和学术基准测试中,GPT-4表现出与人类水平相当的表现,包括在模拟律师资格考试中取得了大约前10%的成绩。GPT-4是一个基于Transformer的模型,预训练用于预测文档中的下一个标记。后训练的对齐过程导致在事实性和遵守预期行为方面的性能提升。该项目的一个核心组成部分是开发基础设施和优化方法,这些方法在广泛的规模范围内表现出可预测的行为。这使我们能够基于使用不超过GPT-4计算量的1/1,000训练的模型,准确预测GPT-4性能的某些方面。
1 引言
本技术报告介绍了GPT-4,一个能够处理图像和文本输入并产生文本输出的大型多模态模型。这类模型是一个重要的研究领域,因为它们有可能被用于广泛的应用,如对话系统、文本摘要和机器翻译。因此,它们近年来受到了大量的关注和进展[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34]。
开发这类模型的主要目标之一是提高它们理解和生成自然语言文本的能力,特别是在更复杂和微妙的场景中。为了测试其在这些场景中的能力,GPT-4在最初为人类设计的各种考试中进行了评估。在这些评估中,GPT-4表现出色,并且经常超过绝大多数人类考生。例如,在模拟律师资格考试中,GPT-4取得了大约前10%的成绩。这与GPT-3.5形成了鲜明对比,后者得分在倒数10%。
在一套传统的NLP基准测试中,GPT-4不仅优于现有的其他大型语言模型,而且在大多数最先进的系统(这些系统通常具有特定基准的训练或手工工程)中也表现出色。在MMLU基准测试[35, 36]中,这是一个涵盖57个主题的英语多选题套件,GPT-4不仅在英语中显著优于现有模型,而且在其他语言中也表现出色。在MMLU的翻译变体中,GPT-4在考虑的26种语言中的24种中超过了英语的最先进水平。我们将在后面的部分更详细地讨论这些模型能力结果,以及模型安全改进和结果。
本报告还讨论了该项目的一个关键挑战,即开发在广泛规模范围内表现出可预测行为的深度学习基础设施和优化方法。这使我们能够基于使用不超过GPT-4计算量的1/1,000训练的模型,对GPT-4的预期性能进行预测(基于类似方式的小规模训练),这些预测在最终运行中得到了验证,从而增加了我们对训练的信心。
尽管GPT-4具有这些能力,但它与早期的GPT模型[37, 38, 1]具有类似的局限性:它不完全可靠(例如,可能会产生“幻觉”),具有有限的上下文窗口,并且不会从经验中学习。在使用GPT-4的输出时应谨慎,特别是在可靠性重要的情境中。
GPT-4的能力和局限性带来了显著且新颖的安全挑战,我们相信,鉴于其潜在的社会影响,对这些挑战的仔细研究是一个重要的研究领域。本报告包括一个广泛的系统卡(在附录之后),描述了我们预见的围绕偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面的风险。它还描述了我们为减轻GPT-4部署带来的潜在危害而采取的干预措施,包括与领域专家进行对抗性测试,以及一个模型辅助的安全管道。
2 本技术报告的范围和局限性
本报告重点介绍了GPT-4的能力、局限性和安全特性。GPT-4是一个基于Transformer风格的模型[39],预训练用于预测文档中的下一个标记,使用公开可用的数据(如互联网数据)和第三方提供商授权的数据。然后,该模型使用从人类反馈中进行强化学习(RLHF)[40]进行微调。鉴于竞争格局和像GPT-4这样的大规模模型的安全影响,本报告不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似的进一步细节。
我们致力于对我们技术的独立审计,并在本版本附带的系统卡中分享了这方面的初步步骤和想法。2我们计划进一步向能够建议我们如何权衡上述竞争和安全考虑与科学透明性价值的第三方提供更多技术细节。
3 可预测的扩展
GPT-4项目的一个主要重点是构建一个可预测扩展的深度学习堆栈。主要原因是对于像GPT-4这样的大规模训练运行,进行广泛的模型特定调优是不可行的。为了解决这个问题,我们开发了在多个尺度上具有非常可预测行为的基础设施和优化方法。这些改进使我们能够可靠地预测GPT-4性能的某些方面,这些预测基于使用不超过GPT-4计算量的1/1,000训练的模型。
损失预测
经过适当训练的大型语言模型的最终损失被认为在训练模型使用的计算量方面近似遵循幂律[41, 42, 2, 14, 15]。
为了验证我们的优化基础设施的可扩展性,我们通过拟合一个带有不可约损失项的扩展定律(如Henighan等人[15]所述),从使用相同方法但计算量最多为GPT-4的1/10,000训练的模型中预测GPT-4在我们内部代码库(不是训练集的一部分)上的最终损失:L(C) = aC^b + c。这个预测在运行开始后不久就进行了,没有使用任何部分结果。拟合的扩展定律准确预测了GPT-4的最终损失(图1)。
在HumanEval上的能力扩展
在训练之前对模型的能力有所了解可以改善关于对齐、安全和部署的决策。除了预测最终损失外,我们还开发了方法来预测更具可解释性的能力指标。其中一个指标是HumanEval数据集[43]上的通过率,该数据集衡量合成不同复杂度Python函数的能力。我们成功地通过从使用最多为GPT-4计算量的1/1,000训练的模型中进行外推,预测了HumanEval数据集子集上的通过率(图2)。
图1展示了GPT-4和较小模型的性能。度量标准是基于我们内部代码库的数据集上的最终损失。这是一个方便的、包含代码标记的大型数据集,不包含在训练集中。我们选择查看损失,因为它在不同数量的训练计算中往往比其他度量更少噪声。对较小模型(不包括GPT-4)进行幂律拟合,以虚线表示;这种拟合准确预测了GPT-4的最终损失。x轴是训练计算的归一化,使得GPT-4为1。
图2展示了GPT-4和较小模型的性能。度量标准是HumanEval数据集子集上的平均对数通过率。对较小模型(不包括GPT-4)进行幂律拟合,以虚线表示;这种拟合准确预测了GPT-4的性能。x轴是训练计算的归一化,使得GPT-4为1。
对于HumanEval中的单个问题,性能偶尔会随着规模的增加而恶化。尽管存在这些挑战,我们发现了一个近似的幂律关系 - E_P[log(pass_rate(C))] = α*C^-k,其中k和α是正常数,P是数据集中问题的子集。我们假设这种关系适用于该数据集中的所有问题。在实践中,非常低的通过率难以或不可能估计,因此我们限制在问题P和模型M中,使得在给定的大样本预算下,每个问题至少被每个模型解决一次。
图3展示了GPT-4和较小模型在Hindsight Neglect任务上的性能。准确率显示在y轴上,数值越高越好。ada、babbage和curie指的是通过OpenAI API可用的模型[47]。
我们在训练完成之前,仅使用训练前的可用信息,对GPT-4在HumanEval上的表现进行了预测。所有但15个最难的HumanEval问题根据较小模型的表现被分为6个难度桶。图2显示了第3个最容易的桶的结果,显示了对于这个子集,我们能够准确估计log(pass_rate)的几个较小模型的结果,预测非常准确。其他五个桶的预测几乎同样好,主要例外是GPT-4在我们预测的最容易的桶上表现不佳。
某些能力仍然难以预测。例如,Inverse Scaling Prize[44]提出了几个任务,模型性能随着规模的增加而下降。与Wei等人的近期结果[45]类似,我们发现GPT-4逆转了这一趋势,如图3所示,在名为Hindsight Neglect[46]的任务中。
我们认为准确预测未来的能力对安全至关重要。展望未来,我们计划改进这些方法,并在大型模型训练开始之前注册各种能力的表现预测,我们希望这成为该领域的一个共同目标。
4 能力
我们在一系列多样化的基准测试上测试了GPT-4,包括最初为人类设计的模拟考试。4我们没有为这些考试进行特定的训练。考试中的少数问题在模型训练期间被看到;对于每个考试,我们运行一个变体,移除这些问题,并报告两个分数中较低的一个。我们相信结果具有代表性。有关污染的进一步细节(方法和每个考试的统计数据),请参见附录C。
表1展示了GPT在学术和专业考试中的表现。在每种情况下,我们都模拟了真实考试的条件和评分。我们报告了根据考试特定评分标准评分的GPT-4的最终得分,以及达到GPT-4得分的考生百分位数。
考试来自公开可用的材料。考试问题包括多项选择题和自由回答题;我们为每种格式设计了单独的提示,并在需要的问题中包含图像作为输入。评估设置是基于考试验证集的表现设计的,我们报告了保留测试考试的最终结果。总分是通过结合多项选择题和自由回答题的分数,使用每个考试的公开可用方法确定的。我们估计并报告每个总分对应的百分位数。有关考试评估的进一步细节,请参见附录A。
图4展示了GPT在学术和专业考试中的表现。在每种情况下,我们都模拟了真实考试的条件和评分。考试按GPT-3.5的性能从低到高排序。GPT-4在大多数测试的考试中优于GPT-3.5。为了保守起见,我们报告了百分位数范围的较低端,但这在AP考试上产生了某些伪影,因为这些考试的评分区间非常宽。例如,尽管GPT-4在AP生物学中获得了最高可能的分数(5/5),但这在图中仅显示为第85百分位,因为15%的考生达到了该分数。
GPT-4在大多数这些专业和学术考试中表现出与人类水平相当的表现。值得注意的是,它在模拟律师资格考试中取得了大约前10%的成绩(表1,图4)。
模型在考试中的能力似乎主要来自预训练过程,并且不受RLHF的显著影响。在多项选择题上,基础GPT-4模型和RLHF模型在平均水平上在我们测试的考试中表现相当(见附录B)。
我们还评估了预训练的基础GPT-4模型在传统的为评估语言模型设计的基准测试上。对于每个基准测试,我们报告了测试数据出现在训练集中的污染检查结果(有关每个基准测试污染的完整细节,请参见附录D)。5我们在评估GPT-4时对所有基准测试使用了少样本提示[1]。6
GPT-4在学术基准测试上显著优于现有的语言模型,以及大多数具有特定基准训练或手工工程的最先进系统(表2)。
表2展示了GPT-4在学术基准测试中的表现。我们将GPT-4与最佳的SOTA(具有基准特定训练)和最佳的SOTA进行少样本评估的LM进行了比较。GPT-4在所有基准测试中优于现有的LM,并在除DROP外的所有数据集上击败了具有基准特定训练的SOTA。对于每个任务,我们报告了GPT-4的性能以及用于评估的少样本方法。对于GSM-8K,我们在GPT-4的预训练混合中包含了部分训练集(见附录E),并且在评估时使用了链式思维提示[11]。对于多项选择题,我们将所有答案(ABCD)呈现给模型,并要求它选择答案的字母,类似于人类解决此类问题的方式。
许多现有的ML基准测试是用英语编写的。为了初步了解GPT-4在其他语言中的能力,我们使用Azure Translate将MMLU基准测试[35, 36]——一个涵盖57个主题的多选题套件——翻译成多种语言(有关示例翻译和提示,请参见附录F)。我们发现,GPT-4在大多数测试的语言中超过了GPT-3.5和现有语言模型(Chinchilla[2]和PaLM[3])的英语表现,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言(图5)。
GPT-4在遵循用户意图方面的能力显著优于之前的模型[63]。在提交给ChatGPT[64]和OpenAI API[47]的5,214个提示数据集中,GPT-4生成的响应在70.2%的提示中优于GPT-3.5生成的响应。7
我们开源了OpenAI Evals8,这是我们创建和运行基准测试以评估像GPT-4这样的模型并逐样本检查性能的框架。Evals与现有基准兼容,可用于跟踪模型在部署中的性能。我们计划随着时间的推移增加这些基准的多样性,以代表更广泛的故障模式和更难的任务。
图5展示了GPT-4在与MMLU上的多种语言中的表现,与之前的英语模型进行了比较。GPT-4在测试的大多数语言中,包括低资源语言如拉脱维亚语、威尔士语和斯瓦希里语,都优于现有语言模型的英语表现[2, 3]。
视觉输入
GPT-4接受由文本和图像组成的提示,这与仅文本设置平行,允许用户指定任何视觉或语言任务。具体来说,该模型在输入中由任意交错的文本和图像组成的输入下生成文本输出。在包括带有文本和照片的文档、图表或屏幕截图在内的各种领域中,GPT-4表现出与仅文本输入类似的能力。表3展示了GPT-4视觉输入的一个示例。为语言模型开发的标准测试时技术(例如少样本提示、思维链等)在使用图像和文本时同样有效——有关示例,请参见附录G。
表3展示了GPT-4视觉输入能力的示例提示。提示包含一个关于具有多个面板的图像的问题,GPT-4能够回答这个问题。
在学术视觉基准测试的狭窄子集上的初步结果可以在GPT-4博客文章[65]中找到。我们计划在后续工作中发布更多关于GPT-4视觉能力的信息。
5 局限性
尽管GPT-4具有这些能力,但它与早期的GPT模型[37, 38, 1]具有类似的局限性。最重要的是,它仍然不完全可靠(例如,可能会产生“幻觉”和推理错误)。在使用语言模型输出时应谨慎,特别是在高风险情境中,确切的协议(如人工审查、基于额外上下文的接地或避免高风险使用)应与特定应用的需求相匹配。详见我们的系统卡。
图6展示了GPT-4在九个内部对抗性设计的事实性评估中的表现。准确率显示在y轴上,数值越高越好。准确率为1.0意味着模型的答案在所有问题中都被判定为与人类理想响应一致。我们将GPT-4与基于GPT-3.5的三个早期版本的ChatGPT[64]进行了比较;GPT-4在最新的GPT-3.5模型上提高了19个百分点,在所有主题上都有显著提升。
GPT-4相对于早期的GPT-3.5模型显著减少了幻觉(这些模型本身也在不断改进)。在我们内部对抗性设计的事实性评估中,GPT-4的得分比我们最新的GPT-3.5模型高出19个百分点(图6)。
GPT-4在TruthfulQA等公共基准测试上取得了进展[66],该测试评估模型将事实与一组对抗性选择的不正确陈述分开的能力(图7)。这些问题与统计上吸引人的错误答案配对。GPT-4基础模型在这项任务上仅略优于GPT-3.5;然而,在RLHF后训练后,我们观察到相对于GPT-3.5有大幅改进。9表4显示了一个正确和一个错误答案。GPT-4抵制选择常见的说法(你不能教老狗新 tricks),但它仍然可能错过微妙的细节(Elvis Presley不是演员的儿子,所以Perkins是正确答案)。
尽管GPT-4具有这些能力,但它仍然缺乏截至2021年9月的大部分训练数据截止后发生的事件的知识10,并且不会从其经验中学习。它有时会犯简单的推理错误,这些错误似乎与在如此多领域的能力不一致,或者过于轻信用户明显错误的陈述。它可能会像人类一样在难题上失败,例如在它产生的代码中引入安全漏洞。
GPT-4也可能对其预测充满信心地出错,不在可能出错时进行双重检查。有趣的是,预训练模型高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,在训练后,这种校准减少了(图8)。
图7展示了GPT-4在TruthfulQA上的表现。准确率显示在y轴上,数值越高越好。我们比较了GPT-4在零样本提示、少样本提示和RLHF微调后的表现。GPT-4显著优于GPT-3.5和Bai等人[67]的Anthropic-LM。
GPT-4在其输出中存在各种偏见,我们已采取措施纠正但需要时间来完全表征和管理。我们旨在使GPT-4和其他我们构建的系统具有反映广泛用户价值观的合理默认行为,允许在这些广泛的界限内进行定制,并获得公众对这些界限应是什么的输入。详见OpenAI[68]。
6 风险与缓解措施
我们在改进GPT-4的安全性和对齐方面投入了大量努力。这里我们重点介绍了我们使用领域专家进行对抗性测试和红队测试,以及我们的模型辅助安全流程,以及在安全指标方面的改进。
图8左图:预训练的GPT-4模型在MMLU数据集子集上的校准图。x轴是根据模型对每个问题A/B/C/D选项的置信度(logprob)划分的区间;y轴是每个区间的准确率。虚线对角线代表完美的校准。右图:后训练的GPT-4模型在相同MMLU子集上的校准图。后训练显著损害了校准。
表5:专家红队测试:来自各种模型的示例提示和完成结果。
表6:改进的拒绝不允许类别示例提示和完成结果。
表7:减少对允许类别拒绝的示例提示和完成结果。注意:这些生成结果可能会有所不同,模型不一定总是产生上述结果。
通过领域专家进行对抗性测试: GPT-4带来了与较小的语言模型类似的潜在风险,例如生成有害建议、错误代码或不准确信息。然而,GPT-4的额外能力导致了新的风险表面。为了理解这些风险的范围,我们与来自各个领域的专家合作,对模型进行了对抗性测试和红队测试。他们的发现特别帮助我们测试了在需要专业知识评估的高风险领域中的模型行为,以及评估与非常先进的AI相关的风险,例如寻求权力[70]。从这些专家那里获得的建议和训练数据反馈到我们的缓解措施和模型的改进中;例如,我们收集了额外的数据来改进GPT-4拒绝合成危险化学品请求的能力(表5)。
模型辅助安全流程: 与之前的GPT模型一样,我们使用人类反馈的强化学习(RLHF)来微调模型的行为,以产生更符合用户意图的响应[40, 63]。然而,在RLHF之后,我们的模型在面对不安全的输入时仍然可能很脆弱,并且在安全和不安全的输入上都可能表现出不希望的行为。这些不希望的行为可能出现在奖励模型数据收集部分的标签者在奖励模型数据收集部分的指令未明确指定时。当给出不安全的输入时,模型可能会生成不希望的内容,例如提供犯罪建议。此外,模型在面对安全的输入时也可能变得过于谨慎,拒绝无害的请求或过度回避。为了在更细粒度的层面上引导我们的模型朝着适当的行为,我们严重依赖模型本身作为工具。我们的安全方法包括两个主要组成部分,一组额外的与安全相关的RLHF训练提示,以及基于规则的奖励模型(RBRM)。
我们的基于规则的奖励模型(RBRM)是一组零样本GPT-4分类器。这些分类器在RLHF微调期间为GPT-4策略模型提供额外的奖励信号,针对目标行为,例如拒绝生成有害内容或不拒绝可回答的安全请求。RBRM接受三个输入:提示(可选)、策略模型的输出,以及一个人类编写的评分标准(例如,多选风格的规则集),用于如何评估此输出。然后,RBRM根据评分标准对输出进行分类。例如,我们可以提供一个评分标准,指示模型将响应分类为:(a)以所需风格拒绝,(b)以不需要的风格拒绝(例如,回避或冗长),(c)包含不允许的内容,或(d)安全且非拒绝的响应。然后,在请求有害内容的安全相关训练提示集上,我们可以奖励GPT-4拒绝这些请求。相反,在保证安全和可回答的提示子集上,我们可以奖励GPT-4不拒绝这些请求。这项技术与Glaese等人的工作[71]和Perez等人的工作[72]相关。这,再加上其他改进,如计算最佳RBRM权重和提供额外的SFT数据,针对我们想要改进的领域,使我们能够更接近所需的行为。
在安全指标方面的改进: 我们的缓解措施显著改善了许多GPT-4的安全属性。我们将模型响应请求不允许内容的倾向降低了82%,相比GPT-3.5,GPT-4在敏感请求(例如医疗建议和自残)上按照我们的政策响应的频率提高了29%(图9)。在RealToxicityPrompts数据集[73]上,GPT-4仅在0.73%的时间内生成有毒生成,而GPT-3.5则有6.48%的时间生成有毒内容。
图9展示了在敏感和不允许提示上的错误行为率。数值越低越好。GPT-4 RLHF相比之前的模型具有更低的错误行为率。
总的来说,我们的模型级干预增加了引发不良行为的难度,但这样做仍然是可能的。例如,仍然存在“越狱”(例如,对抗性系统消息,详见系统卡中的图10)来生成违反我们使用指南的内容。只要这些限制存在,重要的是用部署时安全技术来补充它们,如监控滥用以及快速迭代模型改进的流程。
GPT-4及其后续模型有可能对社会产生重大影响,无论是积极还是消极的方式。我们正在与外部研究人员合作,以改进我们理解和评估潜在影响的方式,以及为未来系统中可能出现的有害能力建立评估标准。我们很快将发布关于社会可以采取的步骤以准备AI影响的建议,以及关于预测AI可能的经济影响的初步想法。
7 结论
我们描述了GPT-4,这是一个在某些困难的专业和学术基准测试中表现出人类水平性能的大型多模态模型。GPT-4在一系列NLP任务上优于现有的语言模型,并超过了绝大多数报告的最先进系统(这些系统通常包括任务特定的微调)。我们发现,尽管通常以英语衡量改进的能力,但这些能力可以在许多不同的语言中得到展示。我们强调了可预测的扩展如何使我们能够对GPT-4的损失和能力做出准确的预测。
GPT-4由于其增强的能力带来了新的风险,我们讨论了一些用于理解和提高其安全性和对齐性的方法和结果。尽管仍有许多工作要做,GPT-4代表了向广泛有用且安全部署的AI系统迈出的重要一步。