当前位置：首页 > article >正文

DeepSeek有什么技术创新？为什么这么火

article 2025/2/12 7:44:56

本人认为此文无晦涩难懂的知识，加入《人人都要了解DeepSeek》系列--1

一.Deepseek v3模型产生影响的技术点之Pre-Training

小tips：

模型的训练分为pre-train预训练，和post-train后训练

预训练（Pre-train）是做什么？

1.学习通用语言知识：使用大规模的无监督数据，让模型学习语言的一般规律，如语法、语义、语言的逻辑结构等。例如，在大量的文本数据上进行训练，模型可以学会识别词语之间的搭配关系、句子的基本构成方式等。

2.提取特征表示：通过对海量数据的学习，模型能够自动提取出各种语言特征，形成一种通用的特征表示。这些特征可以捕捉到语言的深层次信息，为后续的具体任务处理提供基础。比如，模型可以学习到不同词语在语义空间中的分布情况，以及文本的主题特征等。

3.初始化模型参数：预训练过程会对模型的参数进行初步的优化和调整，得到一组较好的初始参数。这些初始参数可以使模型在后续针对具体任务的训练中，更快地收敛，提高训练效率，并且有助于模型在新任务上取得更好的性能。

4.降低过拟合风险：大规模的数据预训练可以让模型接触到丰富多样的语言现象，增强模型的泛化能力，使其在面对新的、未见过的数据时，能够更好地适应和处理，减少过拟合的可能性。

1.模型的数据情况：

v3预训练总训练token量：14.8T，提高数学和编程代码比例（有论文表明增加数学和代码的比例，会提高语言能力）；

增加除中英外，多语言数据占比（v2中文比英文高12%）

这个数据是什么概念如果想对比下：

Qwen最新的开源模型的总训练量到达20T token左右

23年，llama开源一代总训练量只有2-3T

2.代码训练策略

大模型训练一般使用的策略是next-token-prediction，就是预测下一个token嘛，这很好理解。

从DeepSeekCoder-v2 提出：deepseek代码训练使用的是Fill-in-Middle（FIM）基于上文和下文预测中间部分文本，在整个代码数据中，有0.1比例使用这个方式。

3.训练长度：

模型在训练过程中能够处理的序列长度

4K->32K-->128K 阶段性各1000 steps学习

例如，当训练长度为 4K 时，模型在处理文本时，每次能够处理 4096 个连续的 token，这意味着模型可以考虑上下文窗口为 4096 个 token 的信息来进行学习和预测。当训练长度提升到 32K 甚至 128K 时，模型能够处理的上下文信息就大大增加了。

二.Deepseek v3模型产生影响的技术点之Post-Training

微调（Post-train 或 Fine-tuning）是做什么？

1.适应特定任务：在预训练的基础上，使用特定任务的有标注数据对模型进行进一步训练，使模型能够适应具体的任务需求。例如，在情感分类任务中，使用带有积极或消极情感标签的文本数据对模型进行微调，让模型学会识别和判断文本中的情感倾向。

2.优化任务性能：通过微调，可以根据特定任务的目标和评价指标，对模型的参数进行更精细的调整，以提高模型在该任务上的性能表现。比如，在机器翻译任务中，通过微调可以使模型在 BLEU 等评价指标上取得更好的分数，生成更准确、更符合语法和语义的译文。

3.融合领域知识：如果任务涉及到特定的领域，微调过程可以将领域相关的知识和信息融入到模型中。例如，在医学文本分类任务中，可以使用医学领域的文本数据进行微调，让模型更好地理解和处理医学术语、概念和文本结构，提高对医学文本的分类准确性。

4.个性化模型：对于不同的用户或应用场景，可以通过微调来实现模型的个性化。比如，为不同用户群体提供个性化的智能客服服务，根据用户的历史数据和偏好对模型进行微调，使模型能够更好地满足特定用户的需求。

1.数据情况：

使用150w多领域SFT数据，每个领域数据针对指定要求，采用不同的方式构建

2.推理数据：

引入了一个创新方法，长链式思维（CoT）;

CoT是什么？

是一种提示方法，让大模型在输出最终答案前，显式输出中间逐步的推理步骤，将复杂问题分解为多个子问题依次求解。

原理：通过构建从输入到思维链再到输出的映射，即 input→reasoning chain→output，完整包含 CoT 的 prompt 通常由指令、逻辑依据、示例三部分组成，以引导模型按步骤推理。

3.RL训练（强化学习）：

模型训练：

基于自研GRPO（Group Relative Policy Opinmization）强化学习算法

基于规则奖励：

针对数学，代码这种有明确结果可以校对的数据，通过约束模型答案格式，通过规则校验，进行奖励

基于模型奖励：

对于没有明确答案的数据，训练RM模型进行训练

三. Deepseek为什么强,有哪些创新？

1.MoE架构

基于MoE结构的大模型，总参数量达到671B，其中每个token会激活37B个参数

MoE包括1个共享专家，256个路由专家（每次激活8个）

为了更好保存模型效果，首三层参数完全共享无专家

MoE架构是什么？ MoE 架构的全称是 Mixture of Experts，即混合专家结构，是一种在深度学习中用于提高模型性能和效率的架构，以下是对其及其中 “专家” 概念的简单介绍：基本架构： MoE 结构包含多个 “专家” 网络和一个门控网络（gating network）。每个专家网络都是一个独立的子模型，负责处理输入数据的某一部分或某一类特征。门控网络的作用是根据输入数据来决定每个专家网络在处理当前输入时的权重或贡献程度，将各个专家的输出进行加权组合，得到最终的模型输出。