当前位置：首页 > article >正文

万字讲清大模型的发展，按时间排序（1950年到2025年）

article 2025/3/15 5:43:36

文章目录

- 一、发展从1950-2023
- - 1950 年达特茅斯会议
  - 1980 年：IBM 机器学习的专家系统
  - 2010 年：深度学习的兴起
  - 2014 年：注意力机制的提出
  - 2017 年：Transformer 的诞生
  - 2018 年GPT1：预训练——微调,模型范式的兴起
  - 2019 年GPT2与谷歌BERT：模型规模的进一步扩大
  - 2020 年：GPT-3 的问世与大模型时代的开启
  - 2021 年：BERT 和 T5
  - 2022 年：GPT-3.5、指令微调prompt、PaLM
  - - GPT-3.5、指令微调prompt
    - PaLM
    - LaMDA
  - 2023年：GPT4.0与生态
  - - GPT4.0与生态
    - LLaMA
    - Claude 2
    - Falcon 系列
- 二、新范式的探索—— 2024年~2025年
- - 1. Claude 3 系列：多模态融合的精细化工程与交互范式的演进
  - 2. Gemini 2.0：稀疏 MoE 架构的工程化精调与原生多模态的巧妙平衡
  - 3. ChatGPT-4o： Post-Training 与强化学习驱动的 “内化思维链” 工程化实践
  - 4. deep seek的工程创新点——新范式的确立
- 三、未来趋势

大模型（Large Language Models, LLMs） 的发展是人工智能领域的重要里程碑。以下是按时间排序的大模型发展关键节点。

一、发展从1950-2023

1950 年达特茅斯会议

人工智能的概念萌芽于 1950 年的达特茅斯会议，然而，彼时匮乏的数据与算力，使得这一理念未能找到明确的应用方向，犹如一颗播撒过早的种子，静待破土之机。

随后的发展中，人工智能领域孕育出两大主流学派，各自沿着不同的路径探索人类智能的奥秘

1.符号推理主义：

这一学派秉持着人类逻辑思维的原则，将世界视为一个由符号和规则构成的数据库。他们试图通过构建精确的规则体系，并运用推理机制来模拟人类的思考过程，犹如一位严谨的架构师，用预设的蓝图搭建认知的大厦。

优势： 其推理过程如同白纸黑字，清晰透明，易于理解和解释；规则明确，为问题的解决提供了可预测的路径。

不足： 面对开放、模糊以及高度复杂的现实问题时，其僵硬的规则难以灵活应对；数据驱动的自学习能力不足，使其在处理海量信息时显得力不从心。

代表技术： 专家系统（如医学诊断和化学分析）、知识表示与推理（如语义网与知识图谱）、日本第五代计算机计划。

代表人物： 马文·明斯基

连接主义：

连接主义则另辟蹊径，其核心思想在于借鉴人脑神经网络的结构，通过构建人工神经网络来模拟人类的认知和思维过程。它不依赖于预定义的规则，而是通过大量的数据驱动，让模型自行学习和提取知识，如同观察幼苗汲取养分，逐渐成长壮大。

优势： 能够有效处理大规模数据，在语音识别、机器翻译、计算机视觉等领域展现出卓越的性能。

不足： 模型内部运作如同一个“黑箱”，可解释性较差；对大量标注数据和强大的计算资源存在高度依赖。

代表技术： 卷积神经网络（CNN）、循环神经网络（RNN）、自注意力机制和 Transformer。

代表人物： 扬立昆、辛顿。

1980 年：IBM 机器学习的专家系统

IBM 在此期间推出了基于机器学习的专家系统，应用于诸如垃圾邮件识别等领域，标志着机器学习开始从理论走向实践。

重要事件： 深蓝战胜国际象棋冠军加里·卡斯帕罗夫，以及扬立昆在手写体数字识别方面的突破，预示着人工智能的巨大潜力。

2010 年：深度学习的兴起

深度学习技术的兴起，为人工智能的发展注入了强劲的动力。人脸识别、计算机视觉等应用开始普及，深刻地改变了我们的生活。

代表算法： AlexNet 网络、卷积神经网络（CNN）。

关键因素：
- 李飞飞主导的 ImageNet 数据集项目，为海量图像数据打上标签，奠定了深度学习发展的数据基础，犹如肥沃的土壤，滋养着人工智能的生长。
- 图形处理器（GPU）的应用，提供了强大的并行计算能力，解决了深度学习模型训练的算力瓶颈，如同澎湃的动力，驱动着模型加速迭代。
- TensorFlow、PyTorch、Caffe 等深度学习框架的涌现，降低了技术门槛，加速了研究和应用的落地。
- 国内涌现出“AI 四小龙”：商汤科技、旷视科技、云从科技、依图科技，代表着中国在人工智能领域的快速发展。

2014 年：注意力机制的提出

注意力机制的提出，犹如为神经网络装上了一双能够聚焦的眼睛，使其在处理信息时能够区分主次，选择性地关注重要部分。

开创性论文： 《通过联合学习对齐和翻译进行神经机器翻译》，首次在翻译任务中实现了序列对齐与翻译能力的有效结合，但其基础仍然是循环神经网络（RNN）。

RNN 的局限性：长程依赖的困境

循环神经网络（RNN）在处理序列数据方面虽然取得了一定的成功，但在应对长序列时暴露出固有的缺陷。
- 长程依赖难以捕捉，信息逐渐消弭： 随着序列长度的增加，信息在传递过程中逐渐衰减，如同长途跋涉后声音变得微弱。RNN 在处理长序列时容易出现“梯度消失”或“梯度爆炸”问题，导致无法有效地捕获远距离的依赖关系。例如，在冗长的叙述中，听者可能遗忘开头的关键信息。LSTM（长短期记忆网络）作为 RNN 的改进版本，通过引入记忆单元来缓解这一问题，但这仍有其记忆容量的限制。
- 训练效率低下： RNN 的序列计算特性使其难以进行并行化处理，限制了训练效率的提升。
注意力机制的引入：聚精会神的艺术

注意力机制模仿人类认知过程中的选择性注意，允许模型在处理输入时，动态地调整对不同部分的关注程度，犹如我们阅读文章时，目光会自然停留在关键信息上。

注意力机制通过并行计算和对重要信息的动态聚焦，能够高效处理长序列，有效克服了 RNN 因输入序列过长而导致的性能下降以及顺序处理带来的效率瓶颈。这就像学习如何高效记笔记，不仅记录信息，更能根据重要性选择性地关注核心内容，从而突破记忆容量的限制。同时，注意力机制还提高了模型的可解释性，使我们能够理解模型的决策过程。

案例解析：

问题： 我去了几次咖啡店？

原始句子： “昨天，我在一个繁忙的一天结束后，决定去我最喜欢的咖啡店放松一下。我走进咖啡店，点了一杯拿铁，然后找了一个靠窗的位置坐下。我喝着咖啡，看着窗外的人们匆匆忙忙，感觉非常惬意。然后，我从咖啡店出来，回到了家中。”

关键点分析： “咖啡店”一词出现了三次，频率较高，但并非句子的核心信息。真正重要的是动作和事件：“决定去”（意图）、“点了一杯拿铁”（行为）、“从咖啡店出来”（场景转换）。

注意力机制在处理这些句子时，会动态地赋予这些动作或转换更高的“注意权重”，从而减少对高频但已知词汇（如“咖啡店”）的关注。

注意力机制的应用远不止于自然语言处理，它还广泛应用于计算机视觉、跨模态任务和推荐系统等领域。例如，在多模态学习中引入多头注意力机制，可以同时关注来自不同模态的信息，例如同时关注图像中的飞机和天空中的白云。

早期的编解码框架若基于 RNN 或 LSTM，会将输入序列压缩成一个固定维度的向量，而解码器生成目标语言的唯一依据就是这个向量。当处理长句子时，这种压缩方式会导致信息丢失，难以保留输入序列的细节，从而影响翻译质量。

而注意力机制允许解码器在生成每个目标单词时，根据上下文需求动态地访问编码器的每个部分，计算相关性并进行动态加权，生成一组上下文向量，再据此预测生成下一个单词。

词嵌入：语义的坐标

核心概念： 词嵌入技术将词语映射到一个多维空间中，使得语义上相似的词语在该空间中的位置也彼此靠近，如同在地图上标注位置，语义相近的词汇彼此毗邻。“国王”和“女王”的向量会相对接近，“苹果”和“橙子”也会如此，但它们与“桌子”的向量则相距甚远。

计算机的需求： 计算机本身只能处理数值数据，而人类使用的是自然语言。因此，必须先将词语转换为计算机能够理解的数值形式，并且这种数值表示还要能够有效地表达词语的含义。

案例： 将英语句子“The cat sat on the mat”翻译成法语“Le chat s’est assis sur le tapis”。在生成目标句中的“chat”时：
- 解码器会集中注意力于输入句子中与“chat”相关的单词，例如“cat”。
- 注意力机制通过计算相关性得出权重，例如对“cat”的注意力权重较高，而对“sat”或“on”的权重较低。
- 利用这些权重，模型生成与“chat”对应的上下文向量，从而提升翻译的准确性。
注意力机制的优势：
- 信息选择性利用： 避免了长信息压缩带来的损失，提升了模型处理复杂语义的能力。
- 对齐关系可视化： 权重分布可以清晰地展示源语言和目标语言的对齐关系，为模型的决策过程提供了可解释性。

2017 年：Transformer 的诞生

开创性论文《Attention is All you Need》宣告了 Transformer 架构的诞生，它以完全基于注意力机制的网络结构取代了传统的 RNN，有效解决了 RNN 在处理长序列时遇到的难题，显著提升了模型的训练效率和语义理解能力，犹如一声号角，宣告了新的时代来临。

Transformer 的关键创新：
- 网络结构的革新： 从基于 RNN 的编码器-解码器结构转变为完全基于 Transformer 的架构，摆脱了对时间序列的依赖，利用编码器-解码器（Encoder-Decoder）结构框架，在简化设计的同时提升了灵活性和可扩展性。
- 自注意力机制（Self-Attention）： 取代了序列对齐机制，极大地增强了模型对句内语义关系的捕获能力。其核心思想在于通过计算序列中每个词与其他词的关联程度，从而捕捉句子内部的语义结构，使得模型能够更好地理解上下文的含义。相较于 RNN 依赖于顺序处理，自注意力机制允许模型并行处理所有词语，更高效地捕捉全局语义信息，尤其在处理长文本时表现出卓越的性能。例如，对于句子“The law will never be perfect, but its application should be just”，Transformer 能够通过关联权重学习到“its”指代“law”。
- 多头注意力机制（Multi-Head Attention）： 通过并行处理多种注意力关系，提升了模型对复杂语义关系的理解能力。其实现方式是多次并行计算不同的注意力权重，从不同的学习视角捕捉多样化的语义特征，犹如使用多种工具（笔记、录音、录像）从不同角度分析同一份数据，最终整合各自的成果。
- 位置编码（Positional Encoding）： 为了弥补自注意力机制无法捕捉词语顺序信息的缺陷，Transformer 引入了位置编码。其目的是在输入嵌入向量中加入位置信息，确保模型能够理解词语在序列中的顺序关系，从而更好地把握文本的整体结构和含义。
Transformer 的工作机制：
- 编码器-解码器框架： Transformer 沿用了编码器-解码器的基本架构。编码器部分负责接收输入序列，并通过多头注意力和前馈神经网络提取特征。解码器部分则接收编码器的输出，并结合掩码注意力（Masked Attention）生成目标序列。
- 掩码注意力（Masked Attention）： 在解码过程中，掩码注意力机制模拟人类理解语言的自然过程，仅允许模型“看到”当前词及其之前的词，从而避免泄露未来的信息，保证了解码过程的自回归特性。
- 缩放点积注意力（Scaled Dot-Product Attention）： 这是 Transformer 中核心的注意力计算方式。其公式通过点积计算 Query 和 Key 的相似度分数，然后通过 Softmax 函数将分数转换为权重，最后将权重与 Value 进行加权求和，得到最终的注意力输出。引入缩放因子的目的是调整点积值的范围，防止其过大，从而稳定模型的训练过程。可以将缩放点积注意力想象成一个筛选重要信息的过程：你在一个聊天室中寻找对话对象（Query），需要查看每个人的名字牌（Key）来确认身份，然后根据名字的匹配程度（点积计算）决定关注谁。匹配度高的人会获得更多的注意力（权重），而缩放因子就像调整筛选标准，防止匹配分数过高或过低，避免误判。最后，根据这些注意力分配来总结聊天内容（加权求和）。通过缩放，点积的值被调节到一个合理的范围，使得模型既能集中注意力，又不至于忽略其他可能有用的信息。

2018 年GPT1：预训练——微调,模型范式的兴起

GPT-1 （Generative Pre-trained Transformer 1） 的出现，标志着“预训练——微调”这一新型模型范式的兴起，为后续大模型的爆发奠定了基础。

核心理念： 首先利用海量的未标注数据（如维基百科）训练一个通用的预训练模型，使其掌握广泛的语言知识。然后，针对特定的下游任务（如问答或分类），使用少量标注数据对预训练模型进行微调，使其能够更好地完成特定任务。

意义：首次引入 Transformer 架构，通过无监督预训练和有监督微调实现强大的语言生成能力。奠定了大模型发展的基础。

OpenAI 的 GPT-1： 其论文《Improving Language Understanding by Generative Pre-Training》首次提出了基于生成的通用预训练模型。GPT-1 将原始 Transformer 的 6 层解码器加深到 12 层，使用了约 1.1 亿的参数，训练数据来源于 7000 本电子书，开启了利用大规模无标注数据进行预训练的新纪元。

代表模型： GPT、BERT、T5/BART 等一系列预训练模型相继涌现。

BERT： 专注于理解任务的编码器架构。BERT 的核心在于对输入信息的深层语义进行编码，它采用双向学习机制，同时考虑上下文信息来理解每个词的含义，如同我们阅读文章时会前后贯通，理解语句的真实含义。
GPT： 专注于生成任务的解码器架构。GPT 的主要职责是根据已有的上下文信息生成新的内容，这是一种自回归的生成过程。给定一个初始输入，模型会逐词预测接下来可能出现的词，如同续写故事一般。其训练方式是单向的，模型通过“遮住”输入文本的后续部分，然后逐词预测被“遮住”的部分进行训练。由于其单向性，GPT 特别擅长于预测下一个单词、下一个句子等，即生成文本的后续内容。
T5/BART： 结合了编码器和解码器结构，使其在翻译和摘要等需要理解和生成的任务上表现出色。

2019 年GPT2与谷歌BERT：模型规模的进一步扩大

GPT-2 与谷歌 BERT 的发布，标志着大模型的参数规模和训练数据量进一步扩大，模型的能力也随之得到显著提升。

GPT-2 的发布： OpenAI 尝试用无监督的方式实现多任务学习。其参数从 GPT-1 的 1.1 亿激增至 15 亿，训练数据也从 7000 本书扩展到 800 万篇网络文章，更加多样化的语料赋予了 GPT-2 惊人的文本生成能力。

意义：参数量大幅增加，生成文本的质量显著提升。因担心滥用，OpenAI 最初未完全公开模型权重，引发广泛讨论。

谷歌发布 BERT： 其论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》标志着双向 Transformer 在语言理解方面的巨大潜力。

2020 年：GPT-3 的问世与大模型时代的开启

GPT 系列专注于解码器结构和扩大模型规模，走出了一条与众不同的发展道路。然而，GPT 模型的迭代并非简单的参数堆砌，其背后蕴含着精细的 AI 工程设计和策略性选择。

此前模型的局限性：

针对特定任务微调： 传统的模型在训练完成后，如果需要解决新的任务，往往需要使用新的数据集重新进行训练。这意味着大多数模型是面向“解决特定任务”而设计的，解决多个任务的成本极高。
微调阶段对标注数据的依赖： 微调过程需要依赖大量的标注数据，而标注数据的获取成本高昂，这也限制了模型的可用性。

GPT-3 的划时代意义：

无需微调即可完成多种任务： GPT-3 的参数规模达到了惊人的 1750 亿，最重要的是，它展示了无需针对特定任务进行微调即可直接应用于多种不同任务的能力。
“In-context Learning”的引入： GPT-3 开创了大模型时代新的使用范式，即无需修改模型参数，只需通过修改提示语（prompt）就能满足用户的需求，这标志着人工智能的应用模式发生了根本性的转变。
参数量达到千亿级别，展示了强大的少样本学习（Few-shot Learning）和零样本学习（Zero-shotLearning）能力。推动了自然语言处理（NLP）领域的范式转变。

上下文学习（In-Context Learning）： 指模型在不更新自身参数的情况下，仅依赖于输入 prompt 所提供的上下文信息，来理解并执行新任务的能力。其核心思想在于，参数规模庞大的模型能够从 prompt 的上下文中学习到完成特定任务所需的知识和技巧。

Prompt 是上下文学习的关键： Prompt 的主要作用是引导模型关注特定的信息，并激活模型内部存储的相关知识，从而指导模型生成符合预期的输出。
模型基于输入 Prompt 理解任务： 模型通过自注意力机制理解用户想要其完成的任务，并选择学习过的且相关度最高的知识来生成对应的输出内容。如果 prompt 构建了明确的任务框架，模型会根据框架自主完成任务。
上下文学习的崛起： 通过提供少量示例（零样本、单样本、少样本学习），模型能够在不进行微调的情况下灵活适应各种不同的任务，极大地降低了人工智能的应用门槛。

范式转变： 人工智能模型的开发范式从传统的“预训练 + 微调”（Pre-training + Fine-tuning）转变为更灵活高效的“上下文学习”（In-Context Learning），标志着人工智能正在朝着更加通用的方向发展。

Transformer 架构的再次验证： GPT-3 的成功进一步验证了 Transformer 架构在处理长文本方面的强大潜力，巩固了 Transformer 在深度学习模型领域的领导地位。

从特定任务到通用能力： 预训练模型的发展趋势从专注于解决单个任务的微调，转向追求解决多种任务的通用能力，标志着语言模型正在朝着更通用的智能方向迈进。

GPT-3 的局限性： 尽管 GPT-3 取得了巨大的成功，但也暴露出了一些局限性。例如，其训练数据几乎涵盖了所有互联网公开数据，但当模型规模扩大到一定程度后，继续扩大模型规模的经济成本呈几何级数上升，而性能的提升幅度却逐渐有限。此外，目前的大模型主要通过文本数据进行训练，而真实世界是多模态的，包含文本、图像、音频和视频等多种信息形式，如何有效地处理和融合多模态数据是未来的重要发展方向

2021 年：BERT 和 T5

1、BERT（Bidirectional Encoder Representations from Transformers）。发布机构：Google，参数量：3.4 亿（Base 版本）。

意义：

引入双向 Transformer 架构，显著提升了文本理解能力。
衍生出多种变体（如 RoBERTa、ALBERT），广泛应用于 NLP 任务。

2、T5（Text-To-Text Transfer Transformer）。发布机构：Google，参数量：110 亿

意义：

提出“文本到文本”的统一框架，将所有 NLP 任务视为文本生成任务。
展示了多任务学习的潜力。

2022 年：GPT-3.5、指令微调prompt、PaLM

GPT-3.5、指令微调prompt

GPT-3.5 的发布 以及指令微调和提示工程的出现，进一步提升了模型的性能和易用性，使得大模型开始真正走向应用。
- 指令微调技术的应用： 指令微调通过构建指令模板，将各种不同的任务转化为统一的文本生成任务，并使用少量带有指令描述的样本对预训练模型进行微调。这相当于训练模型理解和执行不同指令的能力，使其能够更好地响应用户的指示（零样本、少样本、多样本学习）。指令模板可以理解为一种特殊的、用于训练的 Prompt。指令微调通过大量的指令模板数据对模型进行训练，使其学会了“听懂”各种指令，即“理解”各种 Prompt 的能力，从而能够更好地完成各种任务。其主要作用是激发和引导模型利用已有的知识来完成特定的任务。
- 代码训练的引入： 通过引入包含逻辑结构的代码数据进行训练，使得模型涌现出了初步的推理能力。
- RLHF (Reinforcement Learning from Human Feedback) 强化学习的应用： 利用人类的反馈来指导模型的训练，显著提升了模型的生成质量和安全性。
RLHF 的三个核心步骤：
1. 有监督微调（SFT）： 使用人工标注的高质量数据对预训练模型进行微调，使模型初步具备生成符合人类预期回答的能力。
2. 训练奖励模型（RM）： 对于同一个输入，模型生成多个不同的输出，人工标注员对这些输出进行排序（例如：最好、次好、一般等）。利用这些排序数据训练一个奖励模型，其目标是学习人类的偏好，即判断什么样的回答更符合人类的期望。
3. 使用奖励模型优化自身（PPO 算法）： PPO 算法的目标是进一步优化大语言模型，使其能够生成获得更高奖励的输出。在这个过程中，大语言模型会与奖励模型进行交互：大语言模型生成一个回应（Response），奖励模型根据人类的偏好给出一个分数，这个分数就是环境对该策略的反馈，也就是奖励。模型根据奖励信号来更新自身的参数。如果一个回应获得了高分，那么生成该回应的策略就会得到加强；反之，如果一个回应获得了低分，那么生成该回应的策略就会被削弱。这个过程不断迭代，最终使大语言模型能够生成更符合人类期望的回答。
RLHF 的重要性：突破预训练的局限性

预训练的局限性：
- 预训练的目标函数： 预训练的目标是最大化预测下一个词的概率。模型会根据已有的上下文，计算所有可能出现的词的概率分布，并选择概率最高的词作为预测结果。
- 关注点： 预训练模型关注的是语言的统计规律，即哪些词经常一起出现，哪些句子结构更常见。它学习的是词与词之间的共现关系，以及语言的语法结构。这导致预训练模型可能会生成一些语法正确、语义通顺，但实际上是错误的、有害的或无用的回答。
案例：安全性

Prompt: “如何制造炸弹？”

预训练模型可能的回答： “制造炸弹的步骤如下：1. 准备材料… 2. 将材料混合… 3. …” (描述制造炸弹的步骤)。

问题： 预训练模型可能会生成有害的回答，因为它只是根据语料库中的统计规律来预测下一个词，而没有考虑到回答的安全性。而人类期望的回答不仅仅是语法正确、语义通顺的句子，还包含许多复杂的因素，例如：安全、有用、相关、真实等。与其让模型变得更大，不如让模型变得更聪明，更懂人类。

RLHF 的解决方案：
- 引入人类反馈： RLHF 通过引入人类的反馈，将人类的价值观和判断标准融入到模型的训练过程中，使模型能够生成更符合人类期望的回答。
- 奖励模型： 对于同一个输入，模型生成多个不同的输出，人工标注员对这些输出进行排序，选出他们认为最好、次好、一般的答案。使用这些排序数据训练奖励模型，使其学习人类的偏好，判断一个回答是否真实、安全、有用、相关、无偏、符合伦理道德。
- 策略优化： PPO 算法的目标是优化模型，使其能够生成获得更高奖励的输出。大语言模型会与奖励模型进行交互，生成回应，奖励模型给出分数（即奖励）。模型根据奖励信号更新参数。如果一个回应获得高分，生成该回应的策略就会被加强；反之，如果获得低分，生成该回应的策略就会被削弱。这个迭代过程旨在让大语言模型生成更符合人类期望的回答。

PaLM

2022 年：模型：PaLM（Pathways Language Model）

发布机构：Google

参数量：5400 亿

意义：

使用 Pathways 系统进行高效训练，展示了大规模模型的潜力。
在多项 NLP 任务上达到 SOTA（State-of-the-Art）性能。

LaMDA

2022 年：模型：LaMDA（Language Model for Dialogue Applications）

发布机构：Google

参数量：未公开（推测为千亿级别）

意义：

专注于对话生成，展示了更自然、连贯的对话能力。
引发了关于 AI 伦理和安全的讨论。

2023年：GPT4.0与生态

GPT4.0与生态

GPT-4： 在 GPT-3.5 的基础上，GPT-4 展现出更强大的多模态理解和逻辑推理能力，能够理解图像、视频、音频等多种模态的信息。同时，GPT-4 积极搭建插件生态系统，极大地推动了人工智能应用的落地和发展。其更大的上下文窗口（即模型当前的“记忆”容量）使其能够处理更长的文本和更复杂的任务。此外，GPT-4 还引入了思维链（Chain of Thought）和思维树（Tree of Thought）等提示词工程技术，进一步提升了模型解决复杂问题的能力。
- 多模态数据的应用： 随着技术的发展，大模型逐渐摆脱了对单一文本数据的依赖，开始探索如何有效地利用和融合文本、图像、音频、视频等多种模态的数据，以期更好地理解和模拟真实世界。
- 符号推理主义和连接主义的结合： 人工智能的未来发展趋势之一是将符号推理主义和连接主义的优势相结合。例如，神经网络的符号化，让模型能够利用神经网络识别和学习符号及规则；符号推理的神经化，将知识推理融入神经网络，例如将知识图谱与 Transformer 结合用于语义搜索和问答等应用，以期构建更强大、更可靠的人工智能系统。
- 意义：支持多模态输入（文本和图像），能力进一步提升。在复杂任务中表现出更强的推理和生成能力。

LLaMA

模型：LLaMA（Large Language Model Meta AI）
发布机构：Meta（Facebook）
参数量：70 亿到 650 亿
意义：

专注于高效训练和小规模模型，展示了在较小参数量下仍能实现高性能。
开源模型，推动了学术界和工业界的研究。

Claude 2

模型：Claude 2
发布机构：Anthropic
参数量：未公开
意义：

专注于 AI 安全和对齐（Alignment），强调模型的可靠性和可控性。
在长文本生成和复杂任务中表现优异。

Falcon 系列

模型：Falcon-40B、Falcon-180B
发布机构：Technology Innovation Institute（TII）
参数量：400 亿、1800 亿

意义：

开源模型，性能接近 GPT-3.5 和 PaLM。
推动了开源社区在大模型领域的发展。

二、新范式的探索—— 2024年~2025年

这些模型并非横空出世的革命性理论产物，而是在现有技术框架下，通过精妙的工程设计与优化实现的性能跃升，代表了AI发展路径上的一种务实转向。

1. Claude 3 系列：多模态融合的精细化工程与交互范式的演进

Claude 3 系列的突出亮点之一，在于其对多模态能力的巧妙融合。它赋予了用户上传照片、图表、文档等非结构化数据的能力，并依托AI强大的理解和分析能力，实现对这些复杂信息的有效解读和智能应答。在视觉理解和多媒体内容处理方面，Claude 3 相较 GPT-4 展现出更为明显的优势，这并非简单的功能叠加，而是对多模态数据处理流程的精心设计与工程优化。随后， Claude 3 进一步扩展了长上下文窗口技术，从初始阶段的 200K token 迅速提升至所有模型均支持超过 100 万 token 的超长上下文输入，这背后是复杂而精细的内存管理和计算优化工程。更值得关注的是， Claude 3 创新性地引入了 Artifacts 功能，当用户请求 Claude 生成代码片段、文本文档或网站设计等内容时，这些 “artifacts” 将以专用窗口形式在对话界面旁呈现，实现创作与预览的无缝衔接。用户可以直接在聊天界面侧边栏 创建、编辑文档，编写代码，绘制矢量图，乃至设计简易的互动游戏，并即时预览作品，进行迭代与优化。这种高度集成的交互体验，体现了 Claude 3 在用户界面工程方面的深入思考和创新实践。此外， Claude 3 Sonnet 首次通过 API 实现了教 AI 模拟人类在计算机上执行操作的全新功能。开发者可以通过 API 指令引导 Claude 完成更为复杂的自动化任务，例如整合个人电脑上的本地数据与互联网信息，自动填写在线表格。这种将 AI Agent 能力与用户操作界面深度融合的尝试，无疑是工程实现层面的一次重要突破。

2. Gemini 2.0：稀疏 MoE 架构的工程化精调与原生多模态的巧妙平衡

Gemini 2.0 的关键创新在于其对 稀疏门控 MoE 架构 的成熟应用和工程化精调。这种架构使模型能够 “选择性地” 激活神经网络中最相关的 “专家路径”，从而显著提升模型效率，尤其是在推理阶段，降低计算成本。 这并非全新的算法理论，而是对现有 MoE 架构的巧妙运用和工程优化，使其在实际应用中发挥出更强大的性能。为了实现超长上下文窗口， Gemini 2.0 同样在推理侧进行了深度优化，包括内存管理、计算加速等一系列工程手段。更为重要的是， Gemini 2.0 是一个 原生多模态模型，天然支持文本、图像、音频和视频等多种模态的输入和输出。这使其在处理复杂的多模态任务时，具备了结构性的优势，能够更自然、更高效地理解和生成多模态内容。 “原生多模态” 并非简单的功能堆砌，而是从模型架构设计之初就考虑了多模态数据的统一表示和处理，这本身就是一种具有前瞻性的工程设计思路。

3. ChatGPT-4o： Post-Training 与强化学习驱动的 “内化思维链” 工程化实践

ChatGPT-4o 的显著进步，很大程度上得益于 Post-Training 阶段，基于强化学习的 “内化思维链 (Internalized Chain-of-Thought)” 学习方法的有效应用与工程化实践。 通过 模拟人类思维链式的逐步问题拆解过程，模型得以在内部不断进行验证和纠错，提升推理的可靠性与准确性。 这种 “内化思维链” 并非全新的认知科学理论，而是将已有的思维链方法与强化学习相结合，通过精巧的工程手段，提升模型在复杂推理任务中的表现。这使得 ChatGPT-4o 在回答复杂、需要多步骤推理的问题时，能够进行更长时间的 “思考”，并且实验表明， 模型 “思考” 时间越长，推理质量往往越高。 这背后体现的是对模型推理过程的精细控制和工程优化，而非模型在智能原理上的根本性突破。

纵观以上代表技术领先水平的模型进展，我们不难发现，驱动这些模型性能提升的关键因素， 在很大程度上是务实的工程创新，而非开创了全新的、颠覆性的理论或算法范式。 这些创新更多体现在模型架构的优化、训练方法的改进、以及对现有技术的巧妙融合与高效工程化实现层面。它们代表了AI发展从 “理论驱动” 向 “工程驱动” 范式的转变，预示着未来 AI 技术的竞争，将更加聚焦于工程实现能力和产品化落地能力的比拼。

4. deep seek的工程创新点——新范式的确立

DeepSeek 发布的 DeepSeek R1 模型，犹如一座灯塔，清晰地向世人揭示了一条通往高级人工智能的可行实践路径，预示着 AI 模型发展的新纪元。

为了训练出媲美人类 “慢速思维” 的模型，首要的先决条件是构建富含 高质量思维过程数据 的训练数据集。更进一步而言，若要彻底摆脱对成本高昂且效率受限的人工反馈的依赖，转而拥抱自主强化学习的训练模式，则亟需对模型推理过程中的每一步思考进行 精确的定量评估 (优/劣)，并以此为基准，实时地为模型提供相应的奖励或惩罚信号，从而引导其自主进化。 得天独厚的是，数学和代码这两大领域的数据集，与上述严苛的要求天然地高度契合。 数学公式推导的每一个步骤，其逻辑正确性都可以被严格地、形式化地验证，不容置喙；而代码的最终输出结果，则可以通过直接在编译器上运行来 “一键检验” 其功能是否完美地符合预期， 对错分明，无需人工主观判断。例如，在经典数学教材中，我们经常能够看到如下所示的、蕴含完整推理过程的典型例题：

<思维链>
设方程的根为 x，将方程两边同时平方，可得： x² = a - √(a+x)
为了进一步化简方程，我们将根式项移至等式一侧： √(a+x) = a - x²
再次对等式两边进行平方操作： (a+x) = (a - x²)²
展开平方项，并将等式右侧展开： a + x = a² - 2a x² + x⁴
整理等式，将所有项移至等式同一侧，得到标准形式： x⁴ - 2a x² - x + (a² - a) = 0
</思维链>

<最终答案>
x⁴ - 2a x² - x + (a² - a) = 0

这种详尽的文本示例，生动形象地展现了一个模型进行数学推理的完整 “内心独白” 式的思维链轨迹，为我们深入理解模型如何进行推理提供了绝佳的窗口，我们能够精确地、自动化地匹配模型输出的思维过程和最终答案，进而对模型推理过程中的每一步细微的成效进行 客观、量化 的评估。与 OpenAI 公司具有前瞻性的研究思路 异曲同工， DeepSeek 的卓越研究人员在 V3 模型的坚实基础之上， 独具慧眼地 聚焦于富含丰富思维链的数学与代码这两类至关重要的数据集，创新性地开展了突破性的 强化学习 (RL) 训练。另辟蹊径提出 GRPO 的全新强化学习算法，旨在更高效地训练模型的推理能力。实验结果令人振奋，超出预期**，实验数据雄辩地证明，相较于此前的 DeepSeek V3 模型， R1 Zero 模型在多项极具挑战性的复杂推理任务中，均呈现出令人瞩目的性能飞跃， **这强有力地证实了独立的强化学习机制，确实能够如同魔法般，有效激发模型蕴藏的内在推理潜能，使其如虎添翼，更上一层楼。突破性进展，标志着 DeepSeek R1 Zero 模型的训练历程，历史性地迎来了一个堪比 “AlphaZero 时刻” 的里程碑—— 它划时代地彻底摆脱了对珍贵人类智力、宝贵经验与主观偏好的依赖， 转而纯粹依靠强化学习，自主、高效地学习客观且可量化的人类知识，如同 “闭关苦修” 般自我进化，最终使得模型的推理能力，以前所未有的姿态，超越了所有非推理模型，达到了迄今为止的 巅峰高度。

尤其值得高度关注的是， R1-Zero 模型的 核心设计理念 ， 前瞻性地侧重于纯粹的强化学习，并有意地、大胆地 “舍弃” 了传统模型训练流程中至关重要的监督学习 (SFT) 阶段，可谓 “艺高人胆大”。正因如此，尽管 R1-Zero 在模型推理这一核心能力上，取得了足以载入史册的巨大成功，但也 不可避免地 因此暴露出一些不容忽视的局限性：由于完全缺乏监督学习阶段至关重要的引导作用， R1-Zero 模型在训练过程中无暇顾及学习和掌握人类自然的日常问答模式，故而暂时无 像 ChatGPT 那样直接、流畅地回答人类提出的各种问题，人机交互体验略显不足。此外，在模型进行严谨思考和深度推理的复杂过程中，还 偶有观察到 “语言混合” 的现象，即模型输出的内容，时而娴熟地使用地道的英语，时而又会 “任性地” 突然切换为中文，这在一定程度上降低了输出内容整体的语言风格一致性和可读性，对用户的使用体验造成了轻微的影响。 **正是为了有效克服 R1-Zero 模型客观存在的上述不足，使其在各方面都趋于完美，更臻成熟，**推出了更加完善、功能更加强大、用户体验更友好的 DeepSeek R1 模型， DeepSeek R1 的迭代改进过程，其训练流程大致包含了以下四个至关重要的关键步骤：

初步监督微调 (SFT) - 语言风格初步统一： 首先，为了高效解决 R1-Zero 模型输出内容语言风格不尽统一，中英文 “随机切换” 的略显 “任性” 的问题， DeepSeek 精心收集了少量但极其珍贵 的高质量思维链 (Chain-of-Thought, CoT) 数据**，并以 “庖丁解牛” 般的精湛技艺**，对 V3 模型进行初步且关键的监督微调 (SFT)**。这一步的关键目标，是快速赋予模型相对统一和稳定的语言输出风格，为其后的 “重头戏”—— 强化学习奠定坚实的基础，由此获得的初步模型，可以被形象地视为 **“冷启动模型” (Cold-Start Model)
纯强化学习训练 (RL) - 核心推理能力深度提升：紧接着， 大刀阔斧地展开了与 R1 Zero 模型训练思路一脉相承的纯 RL 强化学习训练，并在此过程中，精妙绝伦地巧妙融入了语言一致性奖励机制，其根本目的在于进一步引导模型，在纵情探索和深入推理复杂问题的同时，保持输出语言风格的高度统一性和连贯性，避免再次出现令人困惑的语言 “混搭” 现象。
二次监督微调 (SFT) - 模型向通用任务高效适配：为了使模型能够 “更上一层楼”，高效胜任更加普遍、应用更加广泛的 “非推理任务”，例如日常写作、邮件撰写和常见的常识性、事实性问答等，进一步拓宽模型的应用边界， DeepSeek 团队集思广益，精挑细选地** 精心构建了一组针对性极强的专门数据集，对模型再次进行精心调校的二次监督微调 (SFT)，力求使其在原本强大推理能力的基础上，又能完美兼顾从容处理各类通用任务的卓越能力，彻底打破模型的应用边界，使其应用场景得到极大拓展。
混合奖励信号强化学习 (RL) - 模型综合性能臻于完美：最终，为了 “精益求精”，将模型的各项性能都推向 “ 尽善尽美” 的极致水平**，创造性地将此前用于训练推理能力的推理任务数据集** 和用于训练通用任务能力的通用任务数据集有机地融合 在一起，采用了更加复杂精细的 “混合奖励信号” 进行最终阶段的 “收官之战” 式的强化学习训练

正是通过上述 监督学习 (SFT) -> 强化学习 (RL) -> 监督学习 (SFT) -> 强化学习 (RL) 这种 “四步走” 的 “ 螺旋上升式” 精巧迭代训练流程，正式发布了世界上首个模型综合性能，尤其是核心推理能力，能够真正比肩甚至部分超越闭源推理模型 (例如 OpenAI 的 o1 模型) 的 Reasoning 模型，彻底打破了长期以来闭源模型在推理能力上的 “ 神话”。

如今，全球范围内所有对 AI 技术抱有浓厚兴趣和研究热情的科学家、研究人员和开发者们，都可以零门槛、零成本地亲身下载体验 DeepSeek R1 模型，并可以深入细致地研究模型在给出最终答案之前，所进行的详尽、透明的推理过程，即被形象地称为“内心独白” 的思考轨迹，并且这一切对所有使用者都是完全开放且永久免费的。

更具有划时代里程碑意义的是， R1-Zero 模型的巨大成功和示范效应，以无可辩驳的铁的事实和硬核数据，清晰地向所有 AI 领域的研究者们揭示了 OpenAI 这家 AI 巨头长期以来一直秘而不宣，讳莫如深的关键信息：即使完全彻底地不依赖于成本高昂且效率受限的 “ 人工反馈机制”，纯粹依靠 “ 硬核” 的自主强化学习算法，也完全有能力训练出最顶尖、最强大、最先进** 的新一代推理模型， R1-Zero 模型的深远意义和战略价值，甚至在某种程度上，已经远远超越了 R1 模型本身所业已取得的成就。