当前位置：首页 > article >正文

DeepSeek崛起：中国AI新星如何撼动全球资本市场格局

article 2025/1/31 6:04:31

引言

近期，中国人工智能实验室DeepSeek发布的两款开源模型——DeepSeek V3和DeepSeek R1——以其优异的性能和低廉的成本迅速爆火，引发了全球资本市场的震动，尤其对美国资本市场产生了显著影响。DeepSeek R1更是能够在数学、代码和推理任务上达到OpenAI-o1的水平。本文旨在研究DeepSeek开源模型对资本市场的影响机制，并分析其未来发展趋势。

DeepSeek V3和DeepSeek R1概述

DeepSeek模型的MoE架构和MLA机制技术创新示意图

DeepSeek V3和DeepSeek R1是DeepSeek公司开发的两款开源大语言模型，都拥有6710亿参数，每个token激活370亿参数。这两款模型都基于混合专家（Mixture-of-Experts，MoE）架构，并采用多头潜在注意力（MLA）机制，使模型能够同时关注输入的多个方面，从而提高推理效率。DeepSeekMoE架构采用混合专家方法来优化训练成本和性能。DeepSeek V3的训练成本仅为557.6万美元，而DeepSeek R1的训练成本比竞争对手低95%。DeepSeek R1训练过程中出现的"顿悟时刻"更是令人印象深刻，模型能够重新评估其初始方法并进行自我修正。在Chatbot Arena平台上，DeepSeek的两款模型都排名前10。

DeepSeek V3：高效训练的突破者

DeepSeek V3接受了14.8万亿个token的预训练。它采用创新的负载均衡策略和多token预测目标，显著提升了模型性能和训练效率。DeepSeek V3适用于代码生成与分析、自然语言处理等多种任务。

DeepSeek R1：推理能力的新标杆

DeepSeek R1采用大规模强化学习，并结合冷启动数据进行微调。它在数学、代码和推理任务上达到OpenAI-o1的水平。DeepSeek R1适用于数学推理、代码生成、科学研究等需要复杂推理能力的领域。

DeepSeek开源模型对资本市场的影响

DeepSeek对NVIDIA等芯片股和中国科技股的市场影响对比图

DeepSeek开源模型的发布对全球资本市场，尤其是美国资本市场产生了以下几个方面的影响：

对芯片制造商的影响

DeepSeek V3和R1模型的训练成本远低于同类模型，例如DeepSeek V3的训练成本仅为OpenAI Llama 3.1 405B模型的十一分之一。这引发了市场对AI芯片需求的质疑，导致NVIDIA股价下跌超过8.6%。DeepSeek模型使用更少、性能更低的芯片也能达到与美国竞争对手相当的性能，这进一步加剧了NVIDIA等芯片企业的压力。日本芯片测试设备商Advantest股价也出现同步暴跌，反映了产业链的连锁反应。

DeepSeek通过"模型蒸馏"技术（用大模型训练小模型）和FP8浮点格式优化，在H800芯片上实现等效算力。这种"算力约束下的创新"可能成为行业新范式，降低对高端芯片的依赖。同时，阿里巴巴、字节跳动等企业联合成立"工业大模型实验室"，推动国产芯片适配，加速半导体国产化进程。

对中国互联网企业的影响

DeepSeek开源模型的发布提振了中国互联网企业的股价。例如，腾讯、阿里巴巴、百度和美团的股价均出现上涨。投资者看好中国互联网企业能够利用DeepSeek等开源模型，以更低的成本提升AI能力，从而增强其在全球市场的竞争力。香港恒生科技指数在2025年1月的涨幅达12%，展现出"脱钩对冲"特征。

对AI行业竞争格局的影响

DeepSeek开源模型的出现打破了OpenAI等美国公司在AI领域的垄断地位，推动了AI行业的竞争。DeepSeek模型的开源性质和低廉的成本（API调用成本仅为OpenAI的2%）使其更容易被开发者和研究人员使用，这将加速AI技术的普及和应用，并促进AI生态系统的繁荣。Scale AI首席执行官指出，美国企业可能被迫采用中国开源技术作为底层架构，长期削弱技术主导权。

对AI投资的影响

DeepSeek模型的低成本和高性能促使投资者重新评估AI投资策略。DeepSeek的成功表明，在AI领域，高效的算法和创新的架构设计可以有效降低对大规模算力的依赖，从而降低AI研发成本。Benchmark资本合伙人指出，DeepSeek的"蒸馏法"使小模型训练成本降低90%，可能催生"轻资产AI初创公司"浪潮。红杉资本内部报告建议减少对GPU密集型企业的投资，转向算法优化领域。

能源成本考量也成为投资决策的重要因素。DeepSeek模型推理能耗仅为Claude 3.5 Sonnet的1/53，促使高盛将数据中心运营商评级从"增持"下调至"中性"，反映市场对高耗能AI基础设施的担忧。软银愿景基金已暂停对美国AI企业的20亿美元注资，转而投资东南亚数据中心项目，反映资本向"去美国化"AI基础设施迁移的趋势。

DeepSeek崛起的地缘政治影响

DeepSeek的全球技术流向和资本流动影响力分析图

DeepSeek的崛起对全球地缘政治格局产生了深远影响。DeepSeek R1的发布时机恰逢美国总统特朗普就职典礼，这被认为是对美国在AI领域领导地位的挑战。DeepSeek的成功也凸显了美国对中国实施的出口管制措施的局限性。尽管美国限制了中国获取先进芯片，但DeepSeek通过软件优化和独特的模型架构成功实现了技术突破，这表明出口管制可能对整个AI生态系统的影响大于对单个训练运行的影响。

制裁催生创新突破

南加州大学教授张湖月分析，美国芯片禁令反而迫使中国企业开发出混合专家（MoE）架构等高效训练方法。DeepSeek-V3在14.8万亿token数据集上的训练效率比GPT-4提升15倍。乔治梅森大学研究显示，此类"约束性创新"使中国AI专利数量年增速达34%，远超美国的12%。

开源生态的地缘政治化

DeepSeek开源策略获得发展中国家开发者广泛支持，MIT技术评论指出其可能成为"全球南方国家的AI基础设施"。这种技术影响力外溢引发美国国安局关注，考虑将开源模型纳入出口管制范围。

全球AI治理规则重构

DeepSeek联合中国信通院发布《大模型安全白皮书》，推动中文语料占比超过40%的评测标准。与此相对，美国NIST紧急更新AI测试基准，新增"算力效率指数"试图弱化中国模型优势。这场标准化之争反映了全球AI治理规则正在重构。

业界对DeepSeek的评价

DeepSeek的创新技术和发展模式引发了众多分析师的关注和评论。NVIDIA高级研究经理Jim Fan将DeepSeek R1的强化学习技术与AlphaZero相提并论，认为DeepSeek采用了类似的"试错法"来提升模型的推理能力。Wharton教授Ethan Mollick则表示，DeepSeek R1的回复"读起来就像人类在思考"。这些评论都肯定了DeepSeek在AI领域的技术突破和创新能力。

DeepSeek开源模型爆火的原因

DeepSeek开源模型的爆火主要源于以下几个因素：

优异的性能：DeepSeek V3和R1在多个基准测试中表现出色，其性能可与OpenAI、Google等公司的顶级模型相媲美。
低廉的成本：DeepSeek模型的训练成本和API调用成本远低于同类模型，例如DeepSeek R1的API调用成本仅为OpenAI o1的2%。这主要归功于DeepSeek对效率的关注，以及对多头潜在注意力（MLA）、混合专家（MoE）等架构的应用，以及对强化学习等训练方法的探索。
开源的策略：DeepSeek模型采用开源许可证，允许开发者和研究人员自由使用和修改模型，这促进了AI技术的共享和创新。
创新的技术：DeepSeek模型采用了多种创新技术，例如DeepSeek V3的负载均衡策略和多token预测目标，以及DeepSeek R1的强化学习训练方法，这些技术显著提升了模型的性能和效率。DeepSeek还积极应对美国出口管制的挑战，通过软件优化和独特的模型架构来提升效率。

DeepSeek公司发展历程

DeepSeek从量化交易到AI领军企业的发展历程时间线

DeepSeek是一家专注于开发开源大语言模型的中国AI实验室，由量化交易hedge fund High-Flyer创始人梁文锋创立。DeepSeek的目标是开发具有通用人工智能（AGI）能力的AI模型，并将其开源，以促进AI技术的普及和发展。DeepSeek的发展历程如下表所示：

DeepSeek V2发布后，以其强大的性能和低廉的价格，成为了中国AI模型价格战的催化剂。尽管DeepSeek将其模型价格定得很低，但与亏损的竞争对手相比，DeepSeek仍然保持盈利。DeepSeek创始人梁文锋曾表示，公司的资金从来都不是问题，真正的问题是高端芯片的禁运。DeepSeek的未来计划包括：