当前位置：首页 > article >正文

从 Transformer 到 DeepSeek-R1：大型语言模型的变革之路与前沿突破

article 2025/3/3 13:10:52

本文参考引用：medium-大型语言模型简史

2025年初，DeepSeek开源了一款开创性且高性价比的「大型语言模型」（Large Language Model, LLM） — — DeepSeek-R1，引发了AI领域的巨大变革。

本文回顾LLM的发展历程，以2017年具有革命性意义的Transformer架构为起点。该架构通过「自注意力机制」（Self-Attention）彻底改变了自然语言处理的技术范式。

到了2018年，BERT和GPT等模型崭露头角，显著提升了模型对上下文的理解能力和文本生成能力。

2020年，拥有1750亿参数的GPT-3展示了卓越的「少样本学习」和「零样本学习」能力，进一步拓展了LLM的应用边界。然而，「幻觉」问题 — — 即生成内容与事实不符，甚至出现「一本正经，胡说八道」的现象 — — 成为了一个关键挑战。

2022年，OpenAI采用了「监督微调」（SFT）和「基于人类反馈的强化学习」（RLHF）技术应对这一问题，从而开发了「对话式」模型ChatGPT，引发全球对AI的广泛关注。

到2023年和2024年，像GPT-4和GPT-4o这样的「多模态模型」(Multimodal Model)已经能够无缝整合文本、图像和音频输入，使它们展现出更接近人类的能力，例如「听」、「说」和「看」。

近期推出的OpenAI-o1和DeepSeek-R1「推理模型」（Reasoning Model）在复杂问题解决方面取得了突破，赋予LLM更接近人类「系统2思维」的深度推理能力，标志着人工智能在模拟人类思维模式上迈出了重要一步。此外，DeepSeek-R1以其「超成本效益」和「开源」设计挑战了AI领域的传统规范，推动了LLM的普及，大大促进AI 在各行业的创新应用。

1. 什么是语言模型 (Language Models)？

「语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。

1.1 大型语言模型（LLMs）

虽然「语言模型」（LMs）和「大型语言模型」（LLMs）经常被互换使用，但它们在规模、架构和能力上存在差异。LLMs实际上是传统LMs的扩展版本，通常包含数十亿个模型参数。例如，GPT-3拥有1750亿个参数。“LLM”这一术语在2018–2019年随着BERT和GPT-1等模型的出现开始流行，但2020年GPT-3的发布真正展示了它们的潜力，在各种任务中表现出卓越性能，并确立了LLMs作为现代人工智能的基石地位。

1.2 自回归语言模型（Autoregressive Language Models）

大多数LLMs以「自回归方式」(Autoregressive)操作，这意味着它们根据前面的「文本」预测下一个「字」（或token／sub-word）的「概率分布」(propability distribution)。这种自回归特性使模型能够学习复杂的语言模式和依赖关系，从而善于「文本生成」。

在数学上，LLM 是一个概率模型(Probabilistic Model)，根据之前的输入文本（w₁, w₂, …, wₙ₋₁）预测下一个字 (wₙ) 的概率分布。这可以表示为：

P(wₙ|w₁,w₂,…,wₙ₋₁)

在文本生成任时，LLM通过解码算法(Decoding Algorithm)来确定下一个输出的字。这一过程可以采用不同的策略：既可以选择概率最高的下个字（即贪婪搜索），也可以从预测的概率分布中随机采样一个字，这个随机方法使得每次生成的文本都可能有所不同，这种特性与人类语言的多样性和随机性颇为相似。

1.3 生成能力

LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从「提示」(prompt)开始，如下图，模型通过迭代「预测下一个字」(Next Word Prediction)，直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答，LLM通过将先前选择的标记添加到输入中进行迭代生成，尤如「文字接龙」游戏。

LLM的文本生成尤如「文字接龙」游戏。

这种生成能力推动了多种应用的发展，例如创意写作、对话式人工智能以及自动化客户支持系统。

2. Transformer革命 (2017)

2017年，Vaswani等人通过其开创性论文《Attention is All You Need》引入了Transformer架构，这标志着自然语言处理（NLP）领域的一个重要转折点。Transformer解决了早期模型（如循环神经网络RNN和长短期记忆网络LSTM）的关键限制。这些传统模型在处理长程依赖性和顺序输入时面临诸多挑战，例如计算效率低下、训练时间过长以及梯度消失问题。这些问题使得基于RNN或LSTM的语言模型难以实现高效且准确的性能。而Transformer的出现克服了这些障碍，彻底改变了NLP领域的研究范式，并为现代大型语言模型的发展奠定了坚实基础。

自注意力和Transformer架构：

自注意力和Transformer架构

2.1 自注意力与Transformer架构的核心创新

1. 自注意力机制 (Self-Attention)：与传统的RNN按顺序逐个处理标记不同，Transformer引入了「自注意力机制」，允许模型动态权衡每个标记相对于其他标记的重要性。这种机制使模型能够专注于输入中与当前任务最相关的部分，从而更好地捕捉全局上下文信息。数学上，「自注意力机制」通过以下公式计算：

其中，Q、K、V是查询(query)、键(key)和值(value)矩阵，dₖ是键向量的维度。自注意力机制不仅支持并行计算，显著加快了训练速度，还增强了模型对全局上下文的理解能力。

2. 多头注意力 (Multi-Head Attention)：多头注意力机制通过多个独立的注意力头并行操作，每个头专注于输入的不同方面。这些注意力头的输出被连接并通过一个线性变换层整合，从而生成更丰富、更全面的上下文表示。这种设计使模型能够从多个角度捕捉复杂的语义关系。

3. 前馈网络(Feed-Forward Network, FFN)和层归一化(Layer Norm)：每个Transformer层包含一个应用于每个标记的前馈网络（FFN），以及层归一化和残差连接。前馈网络由两层全连接层组成，通常使用GELU (Gaussian Error Linear Unit)激活函数。层归一化和残差连接的设计有效稳定了训练过程，并支持构建更深的网络架构，从而提升了模型的表达能力。

4. 位置编码(Positional Encoding)：由于Transformer本身不包含序列信息（即标记的顺序），因此需要通过位置编码来显式地表示词序。位置编码通常采用正弦和余弦函数的形式，将位置信息注入到输入嵌入中。这种方法既保留了顺序信息，又不牺牲并行化的优势。

2.2 对语言建模的影响

可扩展性：Transformer实现了完全并行化的计算方式，这使得在大规模数据集上训练超大模型成为可能。相比传统的RNN和LSTM，Transformer的计算效率更高，能够充分利用现代硬件（如GPU和TPU）的并行计算能力。
上下文理解：自注意力机制能够同时捕捉局部和全局依赖关系，显著提高了模型对上下文的理解能力。这种能力使Transformer生成的文本更加连贯，语义更加准确，尤其在处理复杂任务（如翻译、问答和文本生成）时表现出色。

Transformer的提出不仅是NLP领域的一次重大突破，更是人工智能发展史上的一个重要里程碑。它通过自注意力机制、多头注意力、位置编码等创新设计，解决了传统模型的诸多局限性，为未来的语言建模和深度学习研究开辟了全新的可能性。

3. 预训练Transformer模型时代 (2018–2020)

2017年Transformer架构的引入为NLP的新时代铺平了道路，其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现：BERT和GPT，它们展示了大规模预训练和微调范式的强大功能。

3.1 BERT：双向上下文理解 (2018)

2018年，谷歌推出了BERT（Bidirectional Encoder Representations from Transformers），这是一种使用Transformer编码器(Encoder)的突破性模型，在广泛的NLP任务中取得了最先进的性能。与之前单向处理文本（从左到右或从右到左）的模型不同，BERT采用了双向训练方法，使其能够同时从两个方向捕获上下文。通过生成深层次的、上下文丰富的文本表示，BERT在文本分类、命名实体识别（NER）、情感分析等语言理解任务中表现出色。

BERT 是首个仅使用编码器的 Transformer 模型。

BERT的关键创新包括：

掩码语言建模（Masker Language Modeling — MLM）：BERT不是预测序列中的下一个词，而是被训练预测句子中随机掩码的标记。这迫使模型在进行预测时考虑整个句子的上下文 — — 包括前后词语。例如，给定句子“The cat sat on the [MASK] mat”，BERT会学习根据周围上下文预测 [MASK]是“soft”。
下一句预测（Next Sentence Prediction — NSP）：除了MLM之外，BERT还接受了称为下一句预测的次要任务训练，其中模型学习预测两个句子是否在文档中连续。这帮助BERT在需要理解句子之间关系的任务中表现出色，例如问答和自然语言推理。

BERT的影响：BERT的双向训练使其在GLUE（通用语言理解评估）和SQuAD（斯坦福问答数据集）等基准测试中取得了突破性的表现。它的成功证明了上下文嵌入的重要性 — — 这些表示根据周围词语动态变化 — — 并为新一代预训练模型铺平了道路。

3.2 GPT：生成式预训练和自回归文本生成（2018–2020）

虽然BERT优先考虑双向上下文理解，但OpenAI的GPT系列采用了不同的策略，专注于通过自回归预训练实现生成能力。通过利用Transformer的解码器(Decoder)，GPT模型在自回归语言模型和文本生成方面表现出色。

GPT (2018)

GPT的第一个版本于2018年发布，是一个大规模的Transformer模型，经过训练以预测序列中的下一个词，类似于传统语言模型。

单向自回归训练：GPT使用因果语言建模目标进行训练，其中模型仅基于前面的标记预测下一个标记。这使得它特别适合于生成任务，如文本补全、摘要生成和对话生成。
下游任务的微调：GPT的一个关键贡献是它能够在不需要特定任务架构的情况下针对特定下游任务进行微调。只需添加一个分类头或修改输入格式，GPT就可以适应诸如情感分析、机器翻译和问答等任务。

GPT-2 (2019)

在原版GPT的成功基础上，OpenAI发布了GPT-2，这是一个参数量达15亿的更大模型。GPT-2展示了令人印象深刻的零样本(Zero-shot)能力，意味着它可以在没有任何特定任务微调的情况下执行任务。例如，它可以生成连贯的文章、回答问题，甚至在语言之间翻译文本，尽管没有明确针对这些任务进行训练。

GPT-3 (2020)

GPT-3的发布标志着语言模型规模扩展的一个转折点。凭借惊人的1750亿参数(175B parameters)，GPT-3突破了大规模预训练的可能性界限。它展示了显著的少样本(Few-short)和零样本(Zero-short)学习能力，在推理时只需提供最少或无需示例即可执行任务。GPT-3的生成能力扩展到了创意写作、编程和复杂推理任务，展示了超大模型的潜力。

3.3 GPT的影响及规模的作用

GPT模型的引入，特别是GPT-3，标志着AI的一个变革时代，展示了自回归架构和生成能力的强大功能。这些模型为内容创作、对话代理和自动推理等应用开辟了新的可能性，在广泛的任务中达到了接近人类的表现。GPT-3凭借其1750亿参数证明了规模的深远影响，表明在大规模数据集上训练的更大模型可以树立新的AI能力标杆。

语言建模性能随着模型大小、数据集大小和训练使用的计算量的增加而平稳提升。

在2018年至2020年间，该领域由对规模的不懈追求驱动。研究人员发现，随着模型规模的增长 — — 从数百万到数十亿参数 — — 它们在捕捉复杂模式和泛化到新任务方面变得更好。这种规模效应得到了三个关键因素的支持：

数据集大小：更大的模型需要庞大的数据集进行预训练。例如，GPT-3是在大量互联网文本语料库上进行训练的，使其能够学习多样化的语言模式和知识领域。
计算资源：强大的硬件（如GPU和TPU）的可用性以及分布式训练技术，使得高效训练具有数十亿参数的模型成为可能。
高效架构：混合精度训练和梯度检查点等创新降低了计算成本，使得在合理的时间和预算内进行大规模训练更加实际。

这个规模扩展的时代不仅提升了语言模型的性能，还为未来的AI突破奠定了基础，强调了规模、数据和计算在实现最先进结果中的重要性。

4. 后训练对齐：弥合AI与人类价值观之间的差距 (2021–2022)

GPT-3（一个拥有1750亿参数的LLM）生成几乎无法与人类写作区分的文本的能力引发了关于AI生成内容的真实性和可信度的重大担忧。尽管这一成就标志着AI发展的一个重要里程碑，但也突显了确保这些模型与人类价值观、偏好和期望保持一致的关键挑战。一个主要问题是「幻觉」（Hallucination），即LLM生成与事实不符、无意义或与输入提示矛盾的内容，给人一种「一本正经地胡说八道」的印象。为了解决这些挑战，2021年和2022年的研究人员专注于改善与人类意图的一致性并减少幻觉，导致了监督微调（SFT）和基于人类反馈的强化学习（RLHF）等技术的发展。

4.1 监督微调 (SFT)

增强GPT-3对齐能力的第一步是监督微调（SFT），这是RLHF框架的基础组成部分。SFT类似于指令调优，涉及在高质量的输入-输出对或演示上训练模型，以教它如何遵循指令并生成所需的输出。

这些演示经过精心策划，以反映预期的行为和结果，确保模型学会生成准确且符合上下文的响应。

然而，SFT本身有局限性：

可扩展性：收集人类演示是劳动密集型且耗时的，尤其是对于复杂或小众任务。
性能：简单模仿人类行为并不能保证模型会超越人类表现或在未见过的任务上很好地泛化。

为了克服这些挑战，需要一种更具可扩展性和效率的方法，为下一步铺平了道路：基于人类反馈的强化学习（Reinforcement Learning from Human Feedback — RLHF）。

4.2 基于人类反馈的强化学习 (RLHF)

OpenAI在2022年引入的RLHF解决了SFT的可扩展性和性能限制。与需要人类编写完整输出的SFT不同，RLHF涉及根据质量对多个模型生成的输出进行排名。这种方法允许更高效的数据收集和标注，显著增强了可扩展性。

RLHF过程包括两个关键阶段：

训练奖励模型：人类注释者对模型生成的多个输出进行排名，创建一个偏好数据集。这些数据用于训练一个奖励模型，该模型学习根据人类反馈评估输出的质量。
使用强化学习微调LLM：奖励模型使用近端策略优化（Proximal Policy Optimization-PPO）（一种强化学习算法）指导LLM的微调。通过迭代更新，模型学会了生成更符合人类偏好和期望的输出。

这个两阶段过程 — — 结合SFT和RLHF — — 使模型不仅能够准确遵循指令，还能适应新任务并持续改进。通过将人类反馈整合到训练循环中，RLHF显著增强了模型生成可靠、符合人类输出的能力，为AI对齐和性能设定了新标准。

4.3 ChatGPT：推进对话式AI (2022)

2022年3月，OpenAI推出了GPT-3.5，这是GPT-3的升级版，架构相同但训练和微调有所改进。关键增强包括通过改进数据更好地遵循指令，减少了幻觉（尽管未完全消除），以及更多样化、更新的数据集，以生成更相关、上下文感知的响应。

ChatGPT

基于GPT-3.5和InstructGPT，OpenAI于2022年11月推出了ChatGPT，这是一种突破性的对话式AI模型，专门为自然的多轮对话进行了微调。ChatGPT的关键改进包括：

对话聚焦的微调：在大量对话数据集上进行训练，ChatGPT擅长维持对话的上下文和连贯性，实现更引人入胜和类似人类的互动。
RLHF：通过整合RLHF，ChatGPT学会了生成不仅有用而且诚实和无害的响应。人类培训师根据质量对响应进行排名，使模型能够逐步改进其表现。

ChatGPT的推出标志着AI的一个关键时刻，通常被称为「ChatGPT时刻」(ChatGPT moment)，因为它展示了对话式AI改变人机交互的潜力。

多模态模型：连接文本、图像及其他 (2023–2024)

在2023年至2024年间，像GPT-4V和GPT-4o这样的多模态大型语言模型（MLLMs）通过将文本、图像、音频和视频整合到统一系统中重新定义了AI。这些模型扩展了传统语言模型的能力，实现了更丰富的交互和更复杂的问题解决。

5.1 GPT-4V：视觉遇见语言

2023年，OpenAI推出了GPT-4V，将GPT-4的语言能力与先进的计算机视觉相结合。它可以解释图像、生成标题、回答视觉问题，并推断视觉中的上下文关系。其跨模态注意力机制允许文本和图像数据的无缝集成，使其在医疗保健（如分析医学图像）和教育（如互动学习工具）等领域具有价值。

5.2 GPT-4o：全模态前沿

到2024年初，GPT-4o通过整合音频和视频输入进一步推进了多模态。它在一个统一的表示空间中运行，可以转录音频、描述视频或将文本合成音频。实时交互和增强的创造力 — — 如生成多媒体内容 — — 使其成为娱乐和设计等行业的多功能工具。

现实世界的影响: MLLMs革新了医疗保健（诊断）、教育（互动学习）和创意产业（多媒体制作）等领域。它们处理多种模态的能力解锁了创新的新可能性。

6. 开源和开放权重模型 (2023–2024)

在2023年至2024年间，开源和开放权重AI模型获得了动力，使先进AI技术的访问民主化。

开放权重LLMs：开放权重模型提供公开访问的模型权重，限制极少。这使得微调和适应成为可能，但架构和训练数据保持封闭。它们适合快速部署。例子：Meta AI的LLaMA系列和Mistral AI的Mistral 7B / Mixtral 8x7B
开源LLMs：开源模型使底层代码和结构公开可用。这允许全面理解、修改和定制模型，促进创新和适应性。例子：OPT和BERT。
社区驱动的创新：像Hugging Face这样的平台促进了协作，LoRA和PEFT等工具使高效的微调成为可能。

社区开发了专门针对医疗、法律和创意领域的模型，同时优先考虑道德AI实践。开源社区目前处于一个激动人心的阶段，得益于尖端对齐技术的出现。这一进展导致越来越多的卓越开放权重模型发布。因此，闭源和开放权重模型之间的差距正在稳步缩小。LLaMA3.1–405B模型首次历史性地弥合了与闭源对应物的差距。

7. 推理模型：从「系统1」到「系统2」思维的转变 (2024)

2024年，AI开发开始强调增强「推理」(Reasoning)，从简单的模式识别转向更逻辑化和结构化的思维过程。这一转变受到认知心理学双重过程理论的影响，区分了「系统1」（快速、直觉）和「系统2」（缓慢、分析）思维。虽然像GPT-3和GPT-4这样的早期模型在生成文本等「系统1」任务上表现出色，但在深度推理和问题解决方面却有所欠缺。

「系统1」与「系统2」思维

7.1 OpenAI-o1：推理能力的一大飞跃(2024)

2024年9月12日，OpenAI发布的o1-preview标志着人工智能能力的重大飞跃，尤其是在解决复杂推理任务（如数学和编程）方面。与传统LLMs不同，推理模型采用了「长链思维」（Long CoT） — — 即内部的推理轨迹，使模型能够通过分解问题、批判自己的解决方案并探索替代方案来“思考”问题。这些CoTs对用户是隐藏的，用户看到的是一个总结性的输出。

推理模型的关键特性包括：

长链思维（Long CoT）：使模型能够将复杂问题分解为更小的部分，批判性地评估其解决方案，并探索多种方法，类似于搜索算法。
推理时计算控制：对于更复杂的问题，可以生成更长的CoTs；而对于较简单的问题，则使用较短的CoTs以节省计算资源。
增强的推理能力：尽管像o1-preview这样的初始推理模型在某些领域的能力不如标准LLMs，但在推理任务中，它们的表现远远超越了后者，常常能与人类专家媲美。例如，o1-preview在数学（AIME 2024）、编程（CodeForces）和博士级别的科学问题上均超越了GPT-4o。

GPT-4o vs o1-preview vs o1 vs expert human

OpenAI-o1：

2024年12月5日，OpenAI的完整版o1模型进一步提升了性能，在美国AIME 2024数学考试中排名前500名学生之列，并显著超越了GPT-4o（解决了74%-93%的AIME问题，而GPT-4o仅为12%）。此外，o1-mini作为更便宜且更快的版本，在编码任务中表现出色，尽管其成本仅为完整版o1的20%。

OpenAI-o3：

2025年1月31日，OpenAI发布了o3，这是其推理模型系列的最新突破，建立在o1模型成功的基础之上。尽管完整的o3模型尚未发布，但其在关键基准测试中的表现被描述为具有开创性。

ARC-AGI ：达到87.5%的准确率，超过了人类水平的85%，远超GPT-4o的5%。
编程：在SWE-Bench Verified上得分71.7%，并在Codeforces上获得2727的Elo评分，跻身全球前200名竞争性程序员之列。
数学：在EpochAI的FrontierMath基准测试中达到25.2%的准确率，相比之前的最先进水平（2.0%）有了显著提升。

o3-mini性能细分

OpenAI-o1和OpenAI-o3推理模型的发布代表了人工智能领域的重大进步，通过结构化的内部推理过程提供了卓越的问题解决能力，并在复杂数学和编程任务中树立了新的标杆。

8. 成本高效的推理模型：DeepSeek-R1 (2025)

LLMs通常需要极其庞大的计算资源来进行训练和推理。像GPT-4o和OpenAI-o1这样的最先进LLM模型的闭源性质限制了对尖端AI的「普及化」。

8.1 DeepSeek-V3 (2024–12)

2024年12月下旬，「深度求索-V3」(DeepSeek-V3)作为一种成本高效的开放权重LLM出现，为AI的可访问性设定了新标准。DeepSeek-V3与OpenAI的ChatGPT等顶级解决方案相媲美，但开发成本显著降低，估计约为560万美元，仅为西方公司投资的一小部分。该模型最多包含6710亿个参数，其中370亿个活跃参数，并采用专家混合（MoE）架构，将模型划分为专门处理数学和编码等任务的组件，以减轻训练负担。DeepSeek-V3采用了工程效率，例如改进Key-Value缓存管理和进一步推动专家混合方法。该模型引入了三个关键架构：

多头潜在注意力（Multi-head Latent Attention — MLA）：通过压缩注意力键和值来减少内存使用，同时保持性能，并通过旋转位置嵌入（RoPE）增强位置信息。
DeepSeek专家混合（DeepSeekMoE）：在前馈网络（FFNs）中采用共享和路由专家的混合，以提高效率并平衡专家利用率。
多标记预测 (Multi-Token Prediction — MTP)：增强模型生成连贯且上下文相关的输出的能力，特别是对于需要复杂序列生成的任务。

DeepSeek-V3的发布引发了全球科技抛售，危及1万亿美元的市值，并导致英伟达股票盘前下跌13%。DeepSeek-V3的价格为每百万输出标记2.19美元，约为OpenAI类似模型成本的1/30。

8.2 DeepSeek-R1-Zero 和 DeepSeek-R1 (2025–01)

仅仅一个月后，2025年1月下旬，DeepSeek通过发布DeepSeek-R1-Zero和DeepSeek-R1再次引起轰动，这些模型展示了卓越的推理能力，训练成本极低。利用先进的强化学习技术，这些模型证明了高性能推理可以在没有通常与尖端AI相关的巨额计算费用的情况下实现。这一突破巩固了DeepSeek作为高效和可扩展AI创新领导者的地位。

DeepSeek-R1-Zero：一种基于DeepSeek-V3的推理模型，通过强化学习（RL）增强其推理能力。它完全消除了「监督微调」(SFT)阶段，直接从名为DeepSeek-V3-Base的预训练模型开始。它采用了一种基于「规则的强化学习方法」(Rule-based Reinforcement Learning)，称为「组相对策略优化」（Group Relative Policy Optimization — GRPO），根据预定义规则计算奖励，使训练过程更简单且更具可扩展性。

DeepSeek-R1：为了解决DeepSeek-R1-Zero的局限性，如低可读性和语言混杂，DeepSeek-R1纳入了一组有限的高质量冷启动数据和额外的RL训练。该模型经历了多个微调和RL阶段，包括拒绝采样和第二轮RL训练，以提高其通用能力和与人类偏好的一致性。

蒸馏DeepSeek模型：DeepSeek开发了较小的、蒸馏版的DeepSeek-R1，参数范围从15亿到700亿，将先进的推理能力带到较弱的硬件上。这些模型使用原始DeepSeek-R1生成的合成数据进行微调，确保在推理任务中表现出色，同时足够轻量化以便本地部署。

蒸馏版本和模型基座

Model	Base Model	Download
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	🤗 HuggingFace

蒸馏后性能指标

Model	AIME 2024 pass@1	AIME 2024 cons@64	MATH-500 pass@1	GPQA Diamond pass@1	LiveCodeBench pass@1	CodeForces rating
GPT-4o-0513	9.3	13.4	74.6	49.9	32.9	759
Claude-3.5-Sonnet-1022	16.0	26.7	78.3	65.0	38.9	717
o1-mini	63.6	80.0	90.0	60.0	53.8	1820
QwQ-32B-Preview	44.0	60.0	90.6	54.5	41.9	1316
DeepSeek-R1-Distill-Qwen-1.5B	28.9	52.7	83.9	33.8	16.9	954
DeepSeek-R1-Distill-Qwen-7B	55.5	83.3	92.8	49.1	37.6	1189
DeepSeek-R1-Distill-Qwen-14B	69.7	80.0	93.9	59.1	53.1	1481
DeepSeek-R1-Distill-Qwen-32B	72.6	83.3	94.3	62.1	57.2	1691
DeepSeek-R1-Distill-Llama-8B	50.4	80.0	89.1	49.0	39.6	1205
DeepSeek-R1-Distill-Llama-70B	70.0	86.7	94.5	65.2	57.5	1633

DeepSeek-R1在各种基准测试中表现出竞争力，包括数学、编码、常识和写作。根据使用模式，它相比OpenAI的o1模型等竞争对手提供了显著的成本节省，使用成本便宜20到50倍。

8.3 对AI行业的影响

DeepSeek-R1的引入挑战了AI领域的既定规范，使先进LLMs得以「普及化」，并促进了一个更具竞争力的生态系统。其可负担性和可访问性预计将推动各行各业的采用和创新增加。最近，领先的云服务提供商如AWS、微软和谷歌云已在其平台上提供DeepSeek-R1。较小的云提供商和DeepSeek母公司以竞争性定价提供它。

结论

从2017年Transformer架构的提出到2025年DeepSeek-R1的发展，大型语言模型（LLMs）的演进标志着AI领域进入了一个革命性的新阶段。这一历程由四个里程碑式的成就所定义：

Transformers (2017) ：Transformer架构的引入为构建大规模高效模型奠定了基础，使其能够以前所未有的精确性和灵活性处理复杂任务。
GPT-3 (2020) ：这一模型展示了规模在AI中的变革性力量，证明了通过在海量数据集上训练的巨大模型，可以在广泛的应用场景中实现接近人类水平的表现，为AI能力设定了新的基准。
ChatGPT (2022) ：通过将对话式AI带入主流，ChatGPT让高级AI技术变得更加亲民和互动，使普通用户也能轻松使用。同时，它引发了关于AI广泛应用所带来的伦理和社会影响的重要讨论。
DeepSeek-R1 (2025) ：DeepSeek-R1通过采用「专家混合」（MoE）、「多头潜在注意力」（MLA）以及「多标记预测」（MTP），结合高效的多阶段强化学习（RL）训练算法，实现了推理过程优化，并将运营成本削减高达50倍，相较于许多领先的闭源模型。其开源特性加速了尖端AI应用的普及，赋予各行业创新者更多能力，同时也突显了可扩展性、对齐性和可访问性在未来AI发展中的重要性。

LLMs正逐步演变为多功能、多模态的推理系统，能够同时满足普通用户和特定需求。这一演变得益于突破性技术创新，以及在规模、易用性和成本效益上的显著提升，推动人工智能朝着更加包容和影响力深远的方向迈进。

附录

参考引用

medium-大型语言模型简史
https://arxiv.org/pdf/2001.08361
The Transformer Family Version 2.0 | Lil'Log
o3-mini性能细分
https://github.com/deepseek-ai/DeepSeek-R1

专业术语解释

大型语言模型（Large Language Model, LLM）
一种人工智能系统，是传统语言模型的扩展版本，通常包含数十亿个模型参数，能从大型数据集中学习模式和结构，处理、理解和生成类似人类的语言，应用于翻译、摘要、聊天机器人和内容生成等领域。类似一个知识渊博且能说会道的“语言高手”，肚子里装着海量语言知识，能与人顺畅交流各种语言任务。
DeepSeek-R1
DeepSeek开源的一款具有开创性且高性价比的大型语言模型，在复杂问题解决方面取得突破，赋予LLM更接近人类“系统2思维”的深度推理能力，以超成本效益和开源设计推动了LLM的普及。
Transformer架构
2017年提出的一种架构，解决了早期如循环神经网络RNN和长短期记忆网络LSTM等模型在处理长程依赖性和顺序输入时计算效率低下、训练时间过长以及梯度消失等问题，通过自注意力机制、多头注意力等创新设计，实现并行计算，提升了模型对上下文的理解能力，为现代大型语言模型的发展奠定基础。好比是给模型搭建了一个更高效智能的“骨架”，让模型处理任务更灵活快速。
自注意力机制（Self-Attention）
Transformer架构中的机制，允许模型动态权衡每个标记相对于其他标记的重要性，使模型能够专注于输入中与当前任务最相关的部分，更好地捕捉全局上下文信息，支持并行计算，加快训练速度。类似于人在阅读文章时，能自动关注与当前思考问题最相关的部分文字。
少样本学习（Few-shot Learning）
模型在只有少量示例的情况下，就能学习并执行任务的能力。就像学生只看了几道例题，就能举一反三做对同类型题目。
零样本学习（Zero-shot Learning）
模型无需针对特定任务进行训练或微调，就能执行该任务的能力。仿佛一个人从未学过某个新知识，却能直接运用相关能力解决问题。
幻觉（Hallucination）
LLM生成与事实不符、无意义或与输入提示矛盾内容的现象。比如模型像一个会“编造故事”的人，说出来的话不符合实际情况。
监督微调（Supervised Fine-Tuning, SFT）
在高质量的输入-输出对或演示上训练模型，教模型如何遵循指令并生成所需输出，但存在可扩展性和性能方面的局限。类似老师拿着正确答案给学生讲解题目，让学生照着这个模式学习。
基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）
通过人类对模型生成的多个输出进行排名，创建偏好数据集来训练奖励模型，再用奖励模型指导LLM的微调，使模型生成更符合人类偏好和期望的输出，解决了SFT的可扩展性和性能限制。好比老师对学生的多个答案进行打分，学生根据这个打分反馈不断调整学习，给出更好答案。
对话式模型（Conversational Model）
专门为自然的多轮对话进行微调的模型，能维持对话的上下文和连贯性，实现更引人入胜和类似人类的互动，如ChatGPT。类似于一个善于聊天的伙伴，能和人自然地一来一往交流。
多模态模型（Multimodal Model）
能够无缝整合文本、图像和音频等多种输入的模型，展现出更接近人类的能力，如“听”“说”“看” 。就像一个全能选手，既能处理文字，又能理解图像、音频等多种信息形式。
推理模型（Reasoning Model）
强调增强推理，从简单模式识别转向更逻辑化和结构化思维过程的模型，具有长链思维等特性，在复杂问题解决方面表现出色，如OpenAI-o1、DeepSeek-R1 。类似一个擅长逻辑思考的“解题高手”，面对复杂问题能有条理地分析解决。
系统2思维
在认知心理学双重过程理论中，指缓慢、分析的思维方式。就像解题时一步步严谨推导的思考过程。
超成本效益
以极低的成本实现高性能，如DeepSeek-R1以很低的训练成本实现了卓越的推理能力。好比花很少的钱办了大事。
开源
将底层代码和结构公开，允许全面理解、修改和定制模型，促进创新和适应性，如OPT和BERT 。就像把自己的设计图纸公开，大家都能基于此进行改进创作。
语言模型（Language Model, LM）
旨在处理、理解和生成类似人类语言的人工智能系统，从大型数据集中学习模式和结构以产生连贯且上下文相关的文本。是LLM的基础版本，像一个初步掌握语言能力的新手。
自回归语言模型（Autoregressive Language Model）
多数LLMs采用的操作方式，根据前面的文本预测下一个字（或token／sub-word）的概率分布，从而学习复杂语言模式和依赖关系，擅长文本生成。类似“接龙游戏”，依据前面的内容来接下一个内容。
文本（Text）
语言的书面表达形式，是模型处理的对象。就像是一篇文章的文字内容。
字（Word）
语言中能独立运用的最小单位，模型预测的对象之一。类似于我们日常说的一个个的字词。
token
在自然语言处理中，将文本分割成的一个个单元，可能是字、词或子词等，模型处理文本的基本单元。好比把一篇文章拆分成的一个个小片段。
概率分布（Probability Distribution）
表示随机变量取不同值的概率情况，在自回归语言模型中用于预测下一个字出现的可能性。类似一个可能性清单，列出每个字出现的概率。
文本生成（Text Generation）
模型根据学习到的知识和输入，生成连贯文本的过程。就像作家创作文章一样。
提示（Prompt）
模型生成文本时的起始输入，引导模型生成相关内容。好比给模型一个“引子”，让它顺着这个开始创作。
预测下一个字（Next Word Prediction）
模型基于前文预测下一个出现字的操作。如同“接龙”时思考下一个该接什么字。
多头注意力（Multi-Head Attention）
Transformer架构中通过多个独立的注意力头并行操作，每个头专注于输入的不同方面，输出连接并通过线性变换层整合，生成更丰富全面上下文表示的机制，使模型能从多个角度捕捉复杂语义关系。类似一群人从不同角度观察一件事物，然后汇总大家的观察结果。
前馈网络(Feed-Forward Network, FFN)
每个Transformer层中应用于每个标记的网络，由两层全连接层组成，通常使用GELU激活函数，提升模型表达能力。好比模型内部一个对信息进行加工处理的小工厂。
层归一化(Layer Norm)
Transformer架构中用于稳定训练过程，并支持构建更深网络架构的设计，对每一层的输入进行归一化处理。类似于给模型的信息处理流程制定一个标准规范。
位置编码(Positional Encoding)
由于Transformer本身不包含序列信息，采用正弦和余弦函数等形式将位置信息注入到输入嵌入中，保留顺序信息且不牺牲并行化优势。就像给文本中的每个字贴上位置标签，让模型知道它们的顺序。
BERT（Bidirectional Encoder Representations from Transformers）
2018年谷歌推出的使用Transformer编码器的突破性模型，采用双向训练方法，能同时从两个方向捕获上下文，在文本分类、命名实体识别等语言理解任务中表现出色。好比一个阅读文章时能同时从前往后和从后往前理解的“阅读高手”。
编码器(Encoder)
Transformer模型中用于对输入进行编码，提取特征的部分。类似一个信息加工机器，把输入信息转化为模型能理解的特征形式。
双向训练方法
模型训练时可以同时从文本的前后两个方向捕获上下文信息的方法。就像阅读文章既能顺着读，又能倒着读来理解文意。
掩码语言建模（Masked Language Modeling, MLM）
BERT的训练方式，模型被训练预测句子中随机掩码的标记，使其考虑整个句子上下文进行预测。例如在句子中故意遮住某个词，让模型根据前后文猜出这个词。
下一句预测（Next Sentence Prediction, NSP）
BERT接受的次要任务训练，模型学习预测两个句子是否在文档中连续，帮助其在需要理解句子间关系的任务中表现出色。好比判断两句话在文章里是不是前后挨着的。
GPT（Generative Pretrained Transformer）
OpenAI推出的模型系列，专注于通过自回归预训练实现生成能力，利用Transformer的解码器，在自回归语言模型和文本生成方面表现出色。像是一个擅长创作的“写手”，能不断生成新内容。
解码器(Decoder)
Transformer模型中根据编码器输出和其他信息生成最终输出的部分。类似一个把加工好的特征信息转化为最终结果的“生产车间”。
单向自回归训练
GPT使用的训练方法，模型仅基于前面的标记预测下一个标记，适合生成任务。就像接龙时只看前面接的内容来想下一个接什么。
下游任务的微调
GPT可以在不需要特定任务架构的情况下，通过添加分类头或修改输入格式，针对特定下游任务进行调整。好比给一个工具换上不同的“配件”，让它适应不同工作。
零样本(Zero-shot)能力
模型无需针对特定任务进行微调就能执行任务的能力。如同一个人没专门学过某项技能，却能直接上手做。
参数(Parameters)
模型中需要学习的变量，参数数量影响模型的复杂度和能力，如GPT-3拥有1750亿个参数。类似于模型的“知识储备量”指标，参数越多可能知道的越多。
少样本(Few-shot)学习能力
模型在少量示例情况下学习并执行任务的能力。像学生看几道例题就能学会做题。
数据集大小
训练模型所使用的数据量规模，更大的模型通常需要庞大的数据集进行预训练。好比做饭需要的食材数量，模型越大需要的“食材”越多。
计算资源
用于训练模型的硬件资源，如GPU和TPU等，以及相关的分布式训练技术。类似建造大楼需要的各种工具和设备。
高效架构
为降低计算成本、提高训练效率而设计的模型架构，如采用混合精度训练和梯度检查点等创新。就像给模型设计了一个更高效的“工作流程”。
近端策略优化（Proximal Policy Optimization, PPO）
RLHF中使用的一种强化学习算法，用于指导LLM的微调。好比是模型微调过程中的一个“优化指南”。
GPT-3.5
GPT-3的升级版，架构相同但训练和微调有所改进，通过改进数据更好地遵循指令，减少了幻觉，拥有更多样化、更新的数据集。像是GPT-3经过优化升级后的“加强版”。
ChatGPT时刻
2022年ChatGPT推出，展示了对话式AI改变人机交互的潜力，标志着AI发展的一个关键时刻。如同AI发展历程中的一个重要“里程碑”时刻。
GPT-4V
2023年OpenAI推出的多模态大型语言模型，将GPT-4的语言能力与先进的计算机视觉相结合，能解释图像、生成标题等。好比给模型装上了“眼睛”，让它能看懂图像并结合语言描述。
GPT-4o
2024年初OpenAI推出的多模态模型，通过整合音频和视频输入进一步推进多模态，能转录音频、描述视频等。像是在GPT-4V基础上又给模型装上了“耳朵”和“视频播放器”功能。
开放权重LLMs
提供公开访问的模型权重，但架构和训练数据保持封闭的模型，适合快速部署。类似把房子的钥匙给你，但房子的设计图和建造材料信息不公开。
开源LLMs
底层代码和结构公开可用的模型，允许全面理解、修改和定制，促进创新和适应性。就像把房子的设计图和建造方法都公开，大家都能照着改。
社区驱动的创新
通过社区成员协作，利用如Hugging Face平台和LoRA、PEFT等工具，对模型进行高效微调和创新的模式。好比一群人合作对一个作品进行改进创作。
推理(Reasoning)
从简单模式识别转向更逻辑化和结构化思维过程的能力，是推理模型强调增强的能力。类似从凭直觉判断到有条理分析的思考转变。
长链思维（Long Chain of Thought, Long CoT）
推理模型采用的内部推理轨迹，使模型能够通过分解问题、批判自己的解决方案并探索替代方案来“思考”问题，对用户隐藏，用户看到总结性输出。就像模型在心里默默一步步分析问题，最后只告诉用户结果。
推理时计算控制
推理模型根据问题复杂程度，调整生成推理过程长短以节省计算资源的机制。好比人遇到难题多花点精力思考，简单题就快速思考，合理分配精力。
DeepSeek-V3
2024年12月下旬出现的成本高效的开放权重LLM，与顶级解决方案相媲美但开发成本显著降低，采用专家混合（MoE）架构等提升效率。类似一个性价比超高的“模型产品”。
专家混合（Mixture of Experts, MoE）架构
将模型划分为专门处理特定任务（如数学和编码）组件的架构，减轻训练负担。好比把一个大工厂分成不同的专业车间，每个车间负责一类任务。
多头潜在注意力（Multi-head Latent Attention, MLA）
DeepSeek-V3引入的架构，通过压缩注意力键和值减少内存使用，同时保持性能，并增强位置信息。像是给模型的注意力机制做了优化，让它更“省内存”且更准确。
DeepSeek专家混合（DeepSeekMoE）
在FFNs中采用共享和路由专家的混合，提高效率并平衡专家利用率的架构。类似给专家分配工作，让他们既分工又协作，提高整体效率。
多标记预测 (Multi-Token Prediction, MTP)
增强模型生成连贯且上下文相关输出能力，特别是对于复杂序列生成任务的架构。好比让模型生成内容时更有条理、更连贯。
DeepSeek-R1-Zero
基于DeepSeek-V3的推理模型，通过强化学习增强推理能力，消除监督微调阶段，采用组相对策略优化，训练过程更简单且可扩展。像是DeepSeek-R1的“简化初始版”，通过特定方法简化训练过程。
组相对策略优化（Group Relative Policy Optimization, GRPO）
DeepSeek-R1-Zero采用的基于规则的强化学习方法，根据预定义规则计算奖励。类似给模型制定一套奖励规则，让它按规则学习。
DeepSeek-R1
为解决DeepSeek-R1-Zero局限性而开发的模型，纳入有限高质量冷启动数据和额外RL训练，经历多个微调和RL阶段，在各种基准测试中表现出竞争力且成本节省。好比在DeepSeek-R1-Zero基础上优化升级的“完整版”。
蒸馏DeepSeek模型
DeepSeek开发的较小参数版本的DeepSeek-R1，使用原始DeepSeek-R1生成的合成数据微调，将先进推理能力带到较弱硬件上。类似把一个大型工具精简成小型便携版，功能依然强大且适合在配置低的设备上使用。
普及化
使先进技术能够被更广泛的人群获取和使用，如DeepSeek-R1推动了先进LLMs的普及化。好比把原本只有少数人能用的高端产品变得大众都能消费得起。