当前位置：首页 > article >正文

2.大语言模型LLM的涌现能力和关键技术

article 2025/2/21 3:05:01

通常，大语言模型（LLM）指包含数百亿（或更多）参数的语言模型，这些模型在大量的文本数据上进行训练，例如GPT-3、PaLM、Galactica和LLaMA。具体而言，LLM基于Transformer架构构建，其中多头注意力层堆叠在非常深的神经网络中。现有的LLM主要采用与小语言模型类似的模型架构（即Transformer）和预训练目标（即语言建模）。作为主要区别，LLM大幅扩展了模型大小、预训练数据和总计算量（若干数量级），可以更好地根据上下文（即提示）理解自然语言并生成高质量的文本。这一能力提升可以部分通过扩展定律来描述，即任务性能大致随着模型大小的增加而显著提高。然而，根据扩展法则，一些能力（例如上下文学习）是不可预测的，只有当模型大小超过一定水平时他们才能被观察到（如下文所述）。

大语言模型的涌现能力：LLM的涌现能力被正式定义为“在小模型中不存在但在大模型中出现的能力”，这是区分LLM与以前的PLM最突出的特征之一。它进一步介绍了涌现能力显现时一个显著的特征：当规模达到一定水平时，性能显著提高，超过随机水平。类比地，这种涌现模式与物理学中的相变现象有这密切的联系。原则上，涌现能力可以定义为与某些复杂任务相关的能力，而我们更关注能够应用于解决各种任务的通用能力。这里，我们简要介绍三个代表性的LLM涌现能力：