干货分享|DeepSeek技术革命、算力范式重构与场景落地洞察
本文为TsingtaoAI公司负责人汶生为某证券公司管理层和投资者教授的《DeepSeek技术革命、算力范式重构与场景落地洞察》主题培训内容,此次主题培训系统阐述了当前AI技术演进的核心趋势、算力需求的结构性变革,以及行业应用落地的关键路径。
现在我们将全部内容组织整理发布,以飨读者。
DeepSeek的技术架构创新:6个王牌技术创新
MoE的规模化:动态负载均衡解决专家并行通信开销;
Flash MLA:通过隐空间注意力机制降低推理内存消耗;
DeepEP高速通讯网络:解决多专家协作时的传输瓶颈;
DeepGEMM FP8:轻量化设计和两级累积技术(FP8计算+高精度汇总)让低成本部署高效复杂的矩阵运算成为可能;
三项优化并行策略:DualPipe、EPLB、Profile-data
FireFlyer(3FS)文件系统:用SSD的高速读写能力和RDMA网络的低延迟、高带宽特性,为AI任务提供了快速、稳定的数据存储和访问条件。
DeepSeek的技术架构创新:DeepSeek-v3 MoE的规模化实践
动态负载均衡算法:通过“专家偏见”机制解决专家并行通信开销问题(技术细节:256路由专家动态分配策略),主要模式是通过专家模块的稀疏激活方式,能够提高模型的效率。每次只激活一小部分专家,降低了计算量,同时保持模型的灵活性和表达能力。
-
训练效率提升:DeepSeek-V3在每万亿个训练Token上仅需180K H800 GPU小时,显著低于同类模型的训练成本。
-
推理性能增强:DeepSeek-V3在多个基准测试中表现出色,尤其是在数学和编程任务上,成为开源模型中的佼佼者。
-
负载平衡优化:辅助损失自由的负载平衡策略和多令牌预测训练目标的结合,使得DeepSeek-V3在训练过程中能够更好地利用专家的能力,提升模型的整体性能。
DeepSeek-V3在千亿参数规模下训练成本仅557.6万美元,仅为Meta Llama4的2%.
DeepSeek的技术架构创新:Multi-Head Latent Attention
Flash MLA:通过隐空间注意力机制降低推理内存消耗。
MLA的作用:减少推理过程的KV Cache,从而实现在更少的设备上推理更长的Context,或者在相同的Context长度下增大batch size,实现更快的推理速度或者更大的吞吐总量,最终降低推理成本。
DeepSeek的FlashMLA应用在于对于H800的算法优化后,其性能实现了3000 GB/s内存带宽和580 TFLOPS的浮点性能,接近硬件理论峰值,大幅降低推理成本。
DeepSeek的技术架构创新:DeepEP高速通讯网络
MOE架构中“专家网络”分布在不同机器上,当模型通过门控网络调用专家模型时,频繁的大量数据传输可能造成绕路和传输瓶颈,导致延迟。而DeepEP就像一个智能的高速公路调度系统,解决了多专家协作时的传输瓶颈问题,进一步平衡了在H800上推理的吞吐量大小和延迟问题。
1)高吞吐量、低延迟的all-to-all GPU内核,专门优化的分派和组合操作。确保数据在多个GPU之间快速传输,减少通信时间。
2)支持低比特操作,如FP8格式,显著降低计算和存储需求,提升整体效率。
3)针对非对称域带宽转发(如从NVLink域到RDMA域),提供优化内核,适合训练和推理Prefill任务。允许直接内存访问,减少CPU介入。DeepEP的优化确保数据在不同域之间高效传输,特别适用于大规模混合卡的分布式训练。
DeepSeek的技术架构创新:DeepGEMM
DeepGEMM是DeepSeek极简主义实力的代表——仅300行核心代码构成的FP8矩阵乘法库。DeepGEMM对Hopper架构的显卡进行了极其高效且简洁的优化。其轻量化设计和两级累积技术(FP8计算+高精度汇总)让低成本部署高效复杂的矩阵运算成为可能,适合部署在边缘设备。
1)非标准块大小: DeepGEMM 支持非标准块大小(如 112×128),这能更好地适应特定矩阵形状,提高硬件资源利用率;
2)指令级优化:分析不同编译器版本产生的机器代码,底层优化调整了计算指令的执行方式,使计算单元能更高效地并行工作,显著提升了 FP8 计算性能;
3)统一调度系统:设计了一套统一的计算任务调度系统,采用特殊的排布策略,增强缓存重用效率,减少内存访问,提高整体性能。
DeepSeek的技术架构创新:三项优化并行策略
DualPipe是一种创新双向流水线并行算法,通过减少计算和通讯的空闲时间提高计算效率。
EPLB(专家并行负载均衡器)解决了MOE模型在训练和推理中的负载不平衡问题。
Profile-data则像是一份训练和推理框架的性能剖析指南,帮助理解DeepSeek的通信与计算底层设计。
DeepSeek的技术架构创新:Fire-Flyer(3FS)
Fire-Flyer(3FS)是一个高性能分布式文件系统,它利用现代SSD和RDMA网络提供共享存储层,来简化分布式应用程序的开发。
性能特点:
1)在180节点集群中实现6.6TiB/s的聚合读取吞吐量
2)在25节点集群的GraySort基准测试中实现了3.66TiB每分的平均吞吐量
3)每客户端节点的KVCache查询峰值吞吐量可达40+ GiB/s
4)具备强一致性语义的分布式架构
从训练到推理:现存训练数据收敛
-
端到端的直接建模使得大模型能够处理更加复杂和开放域的任务,展现出了惊人的泛化能力;
-
尽管端到端的直接映射非常强大,但仍然需要大量高质量数据的支持,数据偏差也可能带来问题;
-
公开的人类生产的数据已经耗尽,后续模型训练将依赖于AI生产的数据,这是模型更新放缓的主要原因。
Ilya说:如果你有一个巨大的数据集,训练一个超大的神经网络,那么成功是必然的。
但现在,这个公式要失效了。因为数据这个关键变量已经触顶,即便你有再强大的计算资源,也无法突破这个瓶颈。
从训练到推理:Scaling Law瓶颈
根据AI界的摩尔定律——Scaling Law:模型能力的提高依赖于参数量的增加,而训练更复杂的模型需要更大规模算力资源。过去,Scaling Law促成了AI算力军备竞赛,科技巨头通过堆算力来堆大模型性能,进而推导出“算力=实力”的“行业铁律”。
训练在2024年进入瓶颈,算力带来的边际效益递减凸显。起因是OpenAI在2024年未如期发布GPT5,而其公布的大模型GPT Orion虽然训练了互联网上的几乎全部数据,但能力提升并没有比GPT 4o高太多,远不及ChatGPT 2到ChatGPT 3的质变。业界开始质疑Scaling Law,通过单纯放大模型和增加算力并不能实现AI性能进一步跨越,更无法达到AGI。
GPT-4.5 展示了 AI 在预训练模式下的规模极限。GPT-4.5 的登场,最终是否宣告 AI Scaling Law 的终结,仍有待时间检验。但毋庸置疑的是,AI 产业已站在变革的路口,传统的规模化预训练模式即将迎来一次深刻的反思与变革。
从训练到推理:长链思维
推理模型和标准 LLM 之间的关键区别在于它们的输出结构。
推理模型不会直接生成最终答案(带有可选的简明解释),而是生成一个较长的思维链,其详细描述了模型的推理过程。这个较长的思维链长度不一,从而在推理时可实现可控的计算成本:较长的思维链 = 更多的 token = 更多的计算。这样,在推理时使用更多的计算(生成较长的思维链)已成为一种工具,可让用户动态调整模型的推理能力。
从训练到推理:使用更少的监督
与标准 LLM 相比,推理模型对人类监督的依赖程度较低。
强化学习训练期间的奖励主要来自基于规则的系统,而不是依赖于人类的偏好。
当然,推理模型仍然有几个领域依赖于人类的监督;例如,基础模型使用人类整理的数据进行训练,验证依赖于人类提供的 ground truth 标签。然而,像 R1(尤其是 R1-Zero)这样的推理模型仍然在大力发展,证明推理能力可以自主发展起来。
AI产品榜:Web端用户MAU进一步向上突破
Web端,从去年7月份后进入停滞,然后在今年2月份迎来井喷。
原因:DeepSeek在春节期间的爆发;工具进一步成熟,用户在春节期间开始大量口碑传播。
更多的Web端AI产品功能更加成熟易用,成为更好的生产力工具,赚钱能力更强。
AI产品榜:App端用户MAU半年已经不止翻倍
DeepSeek 开源几乎抹平了模型层的能力差异;
字节用抖音给豆包导流、腾讯用微信给元宝导流、红衣大叔周鸿祎用短剧给纳米AI导流;
微信AI搜索把AI搜索付费的可能性终结了,文小言免费把聊天机器人付费给终结了;
DeepSeek的热潮让AI回到了熟悉的互联网投放获客的热潮,投放的逻辑是DeepSeek的接入,使AI App的能力进一步成熟。
破局之路:AI Agent是通往AGI与Killer App的钥匙
AGI能力是渐进解锁的,而具有专业能力、可定制的AI Agent,被认为是打开AGI之门的钥匙。2023年6月,OpenAI应用研究主管LilianWeng提出:Agent = LLM + 记忆 + 规划技能 + 工具使用。2024年在红杉资本的AI峰会上,吴恩达认为Agent 应该具备四种主要能力,即:反思(Reflection)、使用工具(Tool use)、规划(Planning)以及多智能体协同(Multi-agent collaboration)。复旦NLP团队这样描述LLM-based Agent的框架,包含三个组成部分:控制端(Brain)、感知端(Perception)和行动端(Action)。简单理解, AI Agent是能够感知环境、自主决策、执行复杂任务的智能实体。
Manus:不成熟但很有指引性的“通用”Agent
Manus突破性创新
▸ 全链路闭环:规划→执行→验证(三代理协同架构)
▸ 云端异步处理:支持72小时长任务托管
▸ 工具链集成:浏览器/Photoshop/代码编辑器深度适配
多签名系统设计
决策中枢:基于Transformer-XL改进的动态路由算法
执行单元:包含12个垂直领域专家模型集群
验证模块:多维度结果校验系统
多智能体协同架构
虚拟机沙盒:隔离环境运行危险操作(如文件解压)
MCP协议:实现多Agent通信(参考Anthropic技术栈)
记忆强化学习:用户历史行为分析(偏好记忆功能实测)
底层模型调度策略
非自研大模型:基于Claude 3.5+DeepSeek混合调度
动态负载均衡:根据任务类型切换模型(代码类→DeepSeek/文案类→Claude)
知识增强系统
企业内部数据库(支持MySQL/Oracle)
公开API接口(已预置200+常用接口)
本地文件系统(支持PDF/DOCX/XLSX等格式)
工具链集成
开发工具:VSCode/PyCharm/Jupyter
办公软件:Excel/PPT/Word宏支持
设计工具:Photoshop插件/Figma API
自定义扩展:通过manus.config文件添加私有化工具
Manus:MCP协议进入技术视野
去年11月,Anthropic首次提出「模型上下文协议」,即MCP,赋予了Claude模型超级能力,一次构建,让AI与工作流深度集成。其主要优势如下:
开发简化:一次编写,多次集成,无需为每个新集成重写定制代码
灵活性:切换AI模型或工具时,不需要复杂的重新配置
实时响应:MCP连接保持活跃状态,支持实时上下文更新和交互
安全性和合规性:内置访问控制机制和标准化的安全实践
可扩展性:随着AI生态系统的扩展,只需连接新的MCP服务器即可轻松添加新功能
Manus:多智能体协作前夜
技术演进预测
2025 Q4 : 多模态交互升级
2026 Q1 : 实现跨平台记忆继承
2026 Q3 : 构建分布式Agent网络
产业变革预测
人力结构重塑:基础岗位人效比提升5-10倍
决策模式变革:80%的常规决策将由Agent主导
新职业诞生:AI流程设计师、人机协作教练等岗位涌现
RAG逐渐取代部署微调成为开发主流?
观点一:
新模型的频繁发布导致微调模型迅速过时:由于新的LLM几乎每天都在发布,任何微调后的LLM在三个月后仍然保持最先进的可能性几乎为零。在快速发展的LLM领域,依赖于特定版本的微调模型可能很快就会变得没有竞争力。
RAG和扩展上下文的组合优于微调:RAG模型与扩展上下文相结合是一个强大的组合,能够有效解决许多问题。只有在这种组合无法解决问题时,微调LLM才有必要。
LLM应易于替换:鉴于LLM技术仍处于发展初期阶段,替换LLM应该是一个简单直接的过程。如果无法轻松替换LLM,则应用程序可能很快就会变得过时。
推理服务转向云端:如果不需要自己训练模型,那企业也相应不需要自己持有模型及运维服务,更倾向于采用Maas或Paas的形式向云厂商购买服务。
观点二:
恰恰相反?Why?
DeepSeek拉齐模型能力...
微调训练的技术门槛不断降低...
私有部署的数据安全性...
AI训练的本质:模拟人的语言和行为
AI的核心本质在模拟并且拓展人类的智能行为,赋予感知、推理以及学习的多维度能力。
简单来说,AI 就是致力于“能够像人类一样思考”,甚至在一些特定的领域内超越人类的极限。Manus要做到真正的专业级的智能,需要了解专业的股票分析人员、工程师等各类行业专业人士的实际工作行为和电脑操作,并以此训练AI。
AI人形机器人具身智能的智能来自人类的真实的现实行为和动作数据。
现在的AI,更多的是知识,而智能还差很远。
ScaleAI的案例:AI生产数据到底是怎么回事
讨论:什么样的企业在采用自托管?将来是更多自托管还是API接入?
算力需求测算逻辑
主要考虑训练+推理两个阶段的算力需求。Transformer模型训练和推理都是经过多次迭代完成的,一次训练迭代包含了前向传播和反向传播两个步骤,而一次推理迭代相当于一个前向传播过程。前向传播过程指将数据输入模型计算输出,反向传播是计算模型的梯度并存储梯度进行模型参数更新。根据NVIDIA论文《Reducing Activation Recomputation in Large Transformer Models》,反向传播的计算量大约是前向传播的2倍,因此可以得出,一次训练迭代(包含一次前向+一次反向)的计算量大约为一次推理迭代(包含一次前向)的3倍。
算力需求测算逻辑
结合OpenAI论文《Scaling Laws for Neural Language Models》的结论,训练Transformer模型的理论计算量为C≈6N*D,其中,N为模型参数量大小,D为训练数据量大小;推理所需计算量即为2N*D。举个例子,参考OpenAI关于GPT-3的论文《Language Models are Few-Shot Learners》,GPT-3 175B版本模型参数量为1746亿、训练数据量tokens为3000亿,我们根据公式预估,训练模型所需算力为C≈6N*D =6*(1746*10^8) *(3*10^11)
=3.14*10^23FLOPs。
算力需求测算:训练端
7月23日Meta公布的最新开源模型——Llama 3.1 405B,该模型基于15.6T tokens的数据量进行预训练达到最优性能,训练数据量约为模型参数规模的38.5倍。我们假设最优大模型参数量(N)与Tokens数(D)的近似线性关系为:D=38.5*N,并设置了参数量分别为100亿、500亿、1000亿、3000亿、5000亿、1万亿、2万亿的共七档模型进行算力需求的测算。
1)训练算力需求测算:根据前述公式计算,得出训练一次Llama 3.1的计算量大致为3.79*10^25FLOPs,与实际情况接近(论文中Llama 3.1 405B的training budget为3.8*10^25FLOPs)。同时,根据NVIDIA官网,A100 80G SXM、H100 SXM的在16位精度下(FP16)的算力峰值分别为624TFLOPs、1979TFLOPs,我们假设集群算力利用率MFU为30%,假设模型训练时长分别为30天、60天、90天的背景下,得出训练一次Llama 3.1 405B模型分别需要7.8万张、3.9万张、2.6万张A100,或者等同于分别需要2.5万张、1.2万张、8208张H100。
算力需求测算:推理端
2)推理算力需求测算:根据Similarweb统计,ChatGPT网站在过去12个月平均月访问量为14.1亿次。我们假设在问答场景下,月访问量为14亿、单用户平均每次访问提问次数为15次,即模型每秒处理请求数8000次,假设单次问答消耗600Tokens,计算得出该场景下每秒消耗0.049亿Tokens。
考虑并发峰值和显存预留等问题,我们假设峰值预留倍数为10,计算得出每日峰值消耗4.2万亿Tokens。根据C≈2N*D我们得到对应推理所需算力及所需GPU数量(假设采用INT8精度、MFU=30%),如下图表所示,千亿参数模型单问答场景推理大约需要2.6万张A100或者8188张H100。
大模型服务器成本测算
我们将前述训练(假设训练时长60天)和推理(单场景)两个阶段所需GPU数量加和,并统一假设1台服务器集成8张A100,计算得出千亿参数规模模型训练+推理大约需要3544台服务器,万亿参数规模模型需要6.2万台服务器。
算力需求由训练转到推理
DeepSeek的低成本训练方案促使行业将资源转向更具商业价值的推理阶段。
比如,智能驾驶、移动设备、物联网等场景需要低延迟、高响应的推理能力,对能耗和成本的要求高。DeepSeek的推理成本仅为OpenAI同类模型的1/30,显著降低了部署门槛,企业和个人通过低成本应用AI成为可能。
算力需求也从“训练端”向“推理端”倾斜。
训练端的算力需求固然庞大,但推理端的算力市场是“深蓝海”。如果说训练端是科技大厂在上游的小范围算力竞赛,那推理端就是AI赋能下的全行业浪潮。
推理端的算力需求或呈指数级增长。
随着下游市场的部署成本降低,服务器市场迎来爆发,比如浪潮、联想等厂商推出支持DeepSeek模型的“开箱即用”一体机,订单量激增。GPU需求不降反增,若推理算力需求持续爆发,可能倒逼英伟达调整产品策略,如专攻推理芯片,进而影响全球算力产业链。
DeepSeek对算力需求是提升而不是降低
开源推动应用普及,推理算力需求激增
DeepSeek开源降低技术门槛,下游行业广泛部署AI应用,推理需求爆发。
技术优化带动场景扩展,总量需求上升
虽然算法硬件协同提升单模型效率,但推理模型更适合各类Agent应用的推理场景,各类Agent应用场景裂变式增长推高整体算力需求。
大模型应用落地,实时处理需求增加
政务、制造等领域需实时决策支持,推理算力成为刚需。
长链思维需要更多的计算
长链思维推理模型比单纯的LLM模型需要更多的计算资源。
DeepSeek催熟大模型落地技术,降低推理部署门槛
DeepSeek模型发布即支持昇腾推理,各行业已基于昇腾快速上线
昇腾DeepSeek一体机:大吞吐+高并发,加速行业模型落地
昇腾AI基础软硬件架构全面创新,使能行业场景化应用
19+生态伙伴基于昇腾推出一体机方案,满足不同行业场景需求
关于国产芯片的几个个人思考(个人观点,不做参考)
1、 核心思考:未来1-3年,真正提供AI产品的企业是哪些?他们背后的推理服务来自于哪里?
大推理量:头部AI搜索、头部AI应用、头部App内的AI功能、头部信息化数字化系统ERP、OA、SaaS中嵌入的AI能力。
小推理量或散状推理量:各类国央企、传统企业、中小企业。整体推理量大,但是单个组织的推理量少。
2、非国有企业目前还没有使用国产芯片的任何动机,除非美国禁运把走私通道完全卡断?
接触客户案例:网易有道、kimi等,明确最近一两年内不会用昇腾(宁愿4090分布式推理也不用910B),其他国产硬件更不会考虑;主要考虑点包括:适配优化、性价比、大部分企业没有AI Infra人才和能力等。
3、私有云部署的需求会提升,但是长期机会不是在一体机?
DeepSeek拉齐推理模型的能力,私有化部署的需求提升,很多规模企业都可以私有化部署,然后对模型进行微调开发的,搭建专用推理服务。并且大部分市场化的企业可能会考虑云端部署而不是本地部署,因为这样更灵活,并且云厂商提供运维和各类AI Infra服务。所以这里的机会是阿里云百炼、火山引擎等Paas,而不是一体机。个人感觉一体机的机会是短期的,或者是局部的(央国企和高校等)。同时,长尾AI产品及服务的B端企业,他们更会寻求Maas API服务,这里的机会也是在阿里云百炼和火山引擎们。
4、国产芯片目前看较难跟上Nvidia的步伐
唯一的市场机会是国产信创,不过短期内这个市场也蛮大!新基建、政府发债投资。同时个人判断,大部分的国产一体机、私有化部署的大模型,几乎在部署上那一刻,就成为过期资产、无效投资。国产芯片信创的新基建投资,可能比高速公路或西部的高铁,价值还要低。
如果美国真的完全禁运Nvidia
1. 技术研发与模型训练受阻
芯片性能瓶颈:短期内将面临核心计算力的严重不足,导致训练速度大幅下降,模型参数规模和性能受限。
研发节奏放缓:研发团队不得不缩减项目规模或采用迭代优化的方法,转向轻量化、低功耗或算法压缩技术。这虽然可以在一定程度上缓解硬件不足的问题,但短期内整体技术进步的速度会大幅放缓。
2. 市场与经济层面的深刻变化
成本与投入增加:训练同等规模模型的成本大幅上升。企业和研究机构需要额外的资金投入来寻找替代方案或研发国产替代芯片,而这类研发本身需要较长的周期和大量资源。短期内,高昂的成本和研发风险会导致整个产业链的投资回报周期延长。
市场结构调整:促使中国加速推动半导体产业的国产化进程,催生出一批具有战略意义的本土企业。
3. 战略与研发路径的转变
技术路线的调整:企业与科研机构可能会加大对算法优化、模型压缩、混合精度计算等技术的研发力度,从而在有限的硬件条件下实现尽可能高效的模型训练。这样的转变可能推动 AI 技术向“软硬协同优化”方向发展,未来的 AI 研发可能更注重在有限资源下实现最大化性能。
自主可控研发的加速:促使政府和企业在半导体领域加大研发和投资力度,短期内可能会形成对进口芯片的短缺和依赖,但在中期内(3 年左右)也将加速国产芯片技术的突破与应用。
AIGC应用开发平台:Dify
AIGC应用开发平台:Dify
12 个月内Dify在Github超过 4万 Star,全球安装量超过 40 万,开源大模型中间件 5 月全球增速第一;
与数百种专有/开源 LLMs 以及数十种推理提供商和自托管解决方案无缝集成,涵盖 GPT、Mistral、Llama3 以及任何与 OpenAI API 兼容的模型。
模型优化及芯片适配:清昴智能
清华系公司,大模型与国产芯片适配,除英伟达之外,MLGuider还支持AMD、高通、昇腾等国内外芯片的部署。随着市场对大模型的需求爆发,清昴智能联合模型优化、分布式优化和编译优化等优化技术栈,打造了面向基础模型和底层算力硬件的全链路工具链,着重对大模型和底层AI芯片,尤其是国产芯片的适配优化进行了功能迭代。
以国产头部硬件昇腾为例,在今年2024昇腾开发者大会上,清昴智能作为昇腾伙伴代表也首发了基于昇腾原生开发环境的MLGuider-Ascend工具链,解决了AIGC模型在落地国产昇腾硬件过程中模型-算力不匹配,技术栈复杂,迁移与优化成本高等问题。
感觉清昴智能一直在希望通过产品的进化来迎合开发者的需求,但是产品在市场上的反馈比较少。面临国内外强敌,能否突围,恐怕还是要看昇腾芯片的市场发展及华为的脸色。
模型优化及芯片适配:清昴智能
异构算力编译和优化软件:中科加禾
中科院系公司;
通过编译优化实现大模型推理架构在算法、系统和芯片各层的垂直整合;
在用户无感的前提下显著提升模型推理性能;
提供跨品牌、跨型号的标准化 AI 软件底座,可以直接将模型部署在基于国产AI芯片的硬件环境中;
支持服务器侧(数据中心场景)和端侧(个人电脑、移动设备场景)大模型推理。
异构算力编译和优化软件:中科加禾
提供自动化、高效率的CUDA兼容转译整体解决方案;
使得国产芯片能够以更低的成本、更短的周期进入市场;
为用户在开发过程中带来更多的便利和更高的灵活性;
依托国产力量和市场发展的企业,比较依赖国产芯片的市场发展。
推理加速套件及云服务:SiliconFlow
Onediff:SD系列推理加速套件
SiliconLLM:LLM推理加速套件
SiliconLLM:LLM推理加速套件