当前位置：首页 > article >正文

LLM大语言模型

article 2025/3/11 15:44:35

大语言模型的定义

大语言模型（英文：Large Language Model，缩写LLM），也称大型语言模型，是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

这个大语言模型到底有多大？

拿 GPT 来说， GPT 其实出现了好几代，GPT 3 它有 45 个TB的训练数据，那么整个维基百科里面的数据只相当于他训练数据的 0. 6%。我们在这个训练的时候把这个东西称作语料，就语言材料，这个语料的量是可以说是集中到我们人类所有语言文明的精华在里面，这是一个非常非常庞大的一个数据库。

从量变到质变

经过这样的一个量的学习之后，它产生的一些就是做 AI 的这些计算机学家们，他们没有想到会有这种变化，无法合理解释这一现象的产生即——当数据量超过某个临界点时，模型实现了显著的性能提升，并出现了小模型中不存在的能力，比如上下文学习（in-context learning）。

这也就催生了两个事件：

各大AI巨头提高训练参数量以期达到更好的效果
由于质变原因的无法解释带来的AI安全性考量

大语言模型涌现的能力

上下文学习。GPT-3 正式引入了上下文学习能力：假设语言模型已经提供了自然语言指令和多个任务描述，它可以通过完成输入文本的词序列来生成测试实例的预期输出，而无需额外的训练或梯度更新。
指令遵循。通过对自然语言描述（即指令）格式化的多任务数据集的混合进行微调，LLM 在微小的任务上表现良好，这些任务也以指令的形式所描述。这种能力下，指令调优使 LLM 能够在不使用显式样本的情况下通过理解任务指令来执行新任务，这可以大大提高泛化能力。
循序渐进的推理。对于小语言模型，通常很难解决涉及多个推理步骤的复杂任务，例如数学学科单词问题。同时，通过思维链推理策略，LLM 可以通过利用涉及中间推理步骤的 prompt 机制来解决此类任务得出最终答案。据推测，这种能力可能是通过代码训练获得的。

语言模型历史

2017谷歌推出 transformer 模型，2018 年的时候谷歌提出了 Bert 的模型，然后到 GPT 2，从 340 兆到 10 亿、15 亿，然后到 83 亿，然后到 170 亿，然后到 GPT3 1750 亿的参数。

最早的是 2017 年出来的，就是我们所了解的那个GPT， GPT 名字里面有一个叫做transformer，就是这个 transformer 模型。它是 2017 年出现的，其实也很早，所以计算机领域来说， 2017 年可以归结于上一个时代的产品。然后 2018 年第一代 GPT 出来，当时还不行，相对来说比较差，性能也不行，然后像一个玩具一样。然后 2018 年谷歌又推出了一个新的模型，叫BERT，但是这些模型都是基于之前谷歌推出的这个 transformer 模型进行发展的。然后到了 2019 年， Open AI 除了 GPT2 也没有什么特别，就是它没有办法来产生一个语言逻辑流畅通顺的一段名词，你一看就知道这是机器写的。

但是到了 2020 年的5月， GPT3 出来之后，其实就有了非常大的变化， GPT3 的性能比 GPT2 好很多，它的数参数的数量级大概是 GPT2 10 倍以上。