2.大语言模型LLM的涌现能力和关键技术
通常,大语言模型(LLM)指包含数百亿(或更多)参数的语言模型,这些模型在大量的文本数据上进行训练,例如GPT-3、PaLM、Galactica和LLaMA。具体而言,LLM基于Transformer架构构建,其中多头注意力层堆叠在非常深的神经网络中。现有的LLM主要采用与小语言模型类似的模型架构(即Transformer)和预训练目标(即语言建模)。作为主要区别,LLM大幅扩展了模型大小、预训练数据和总计算量(若干数量级),可以更好地根据上下文(即提示)理解自然语言并生成高质量的文本。这一能力提升可以部分通过扩展定律来描述,即任务性能大致随着模型大小的增加而显著提高。然而,根据扩展法则,一些能力(例如上下文学习)是不可预测的,只有当模型大小超过一定水平时他们才能被观察到(如下文所述)。
大语言模型的涌现能力:LLM的涌现能力被正式定义为“在小模型中不存在但在大模型中出现的能力”,这是区分LLM与以前的PLM最突出的特征之一。它进一步介绍了涌现能力显现时一个显著的特征:当规模达到一定水平时,性能显著提高,超过随机水平。类比地,这种涌现模式与物理学中的相变现象有这密切的联系。原则上,涌现能力可以定义为与某些复杂任务相关的能力,而我们更关注能够应用于解决各种任务的通用能力。这里,我们简要介绍三个代表性的LLM涌现能力:
- 上下文学习:上下文学习能力由GPT-3正式引入:假设提供给语言模型自然语言指令和(或)多个任务演示,它可以以完成输入文本的单词序列的方式来测试实例生成期望的输出&