当前位置：首页 > article >正文

DeepSeek-V3网络模型架构图解

article 2025/2/13 8:55:00

DeepSeek-V3网络架构的创新主要在两次，分别是在前馈层的MOE（混合专家模型）和在注意力中的MHA（多头潜在注意力，一种注意力计算规模压缩技术）。

MOE（混合专家模型）

回顾最初的MOE

GShard是最早将MoE应用在Transformer上的模型，其提出的框架和思想一直影响至今。

回顾Transformer的前馈层FFN，是将注意力子层的输出作为输入，通过一个带有ReLU激活函数的两层全连接网络对输入进行更复杂的非线性变换，公式描述如下：

$\text{FFN}(x)=\text{ReLU}(xW_1+b_1)W_2+b_2$

MoE其实就是将Transformer中的FFN层替换成了MoE-layer（也可以理解成多个规模较小且稀疏的FFN层），其中每个MoE-Layer由一个gate和若干个experts组成。这里gate和每个expert都可以理解成是nn.linear形式的神经网络，图解如下：
(原图来自https://zhuanlan.zhihu.com/p/681154742)

DeepSeek中的MOE

模型架构：

不同的地方：

为了在负载均衡和模型性能之间取得更好的平衡，DeepSeek开创了一种无辅助损失的负载均衡策略：为每个专家引入一个偏差项，并将其添加到相应的亲和力分数中以确定top- $K$ 路由，具体来说：如果其对应的专家过载，我们将偏差项减少 $b$ ；如果其对应的专家负载不足，我们将偏差项增加 $b$ ，其中 $b$ 是一个称为偏差更新速度的超参数。

门控网络本质上就是一个softmax叠加一个分类网络，那么辅助loss往往就是添加一个惩罚项，对输出过大的 logits 进行惩罚，鼓励模型生成更加适度的 logits 值，防止模型生成过于极端的输出。

公式描述为公式(14)改为公式(16)

引入了偏差项

MLA 多头潜在注意力

本质就是在计算注意力之前进行各种向量降维(用于降低注意力计算和后端推理的计算量)和加入旋转位置编码(RoPE)(目的是：通过旋转矩阵将位置信息融入词向量的内积计算中，从而在注意力机制中隐式编码相对位置关系)。

参考文章

https://zhuanlan.zhihu.com/p/15153745590

https://arxiv.org/pdf/2412.19437v1

https://zhuanlan.zhihu.com/p/681154742

http://www.kler.cn/a/543249.html

相关文章：

【Stable Diffusion模型测试】测试ControlNet，没有线稿图？

使用 Go 语言调用 SiliconFlow 语音生成 API 的脚本，用于将文本转换为 MP3 格式的语音文件。

搜维尔科技在动作捕捉与动画制作、汽车制造与安全测试、机器人与自动化领域的一些案例

【IDEA】2017版本的使用

（一）Axure制作移动端登录页面

Odoo17 0.1常见的QWeb 模板语言指令的详细总结

kafka介绍，kafka集群环境搭建，kafka命令测试，C++实现kafka客户端

如何选择合适的搜索关键词优化工具？

按键可视化工具——Keyviz

开源堡垒机 JumpServer 社区版实战教程：一步步构建企业安全运维环境

SQL Server：查看当前连接数和最大连接数

【Vue3 入门到实战】13. 常用 API

探索技术新边界：让 HTML 电子凭证与二维码、PDF 完美融合

网络安全理清安全边界

计算机毕业设计制造业MES生产管理平台 MES 生产制造源码+文档+运行视频+讲解视频）

【前端】ES6新特性汇总

AI直播的未来：智能化、自动化与个性化并存

AI时代的前端开发：效率、协作与ScriptEcho

C++设计模式 —— 单例模式

TiDB Vector 本地部署的亲身体验与心得

Druid GetConnectionTimeoutException解决方案之一

基础连接已经关闭: 服务器关闭了本应保持活动状态的连接

Cursor无法安装插件解决方法

操作系统|ARM和X86的区别，存储，指令集

在anaconda环境中构建flask项目的exe文件

后端面试题