当前位置：首页 > article >正文

李国杰院士 “七问” DeepSeek：深度剖析 AI 发展新态势

article 2025/3/7 1:09:11

李国杰院士 “七问” DeepSeek：深度剖析 AI 发展新态势

在人工智能领域的探索之路上，李国杰院士凭借深厚的学术造诣和前瞻性的眼光，成为指引方向的重要灯塔。

李国杰院士任职于中国科学院计算技术研究所，担任研究员一职。他不仅是中国工程院院士，更是在多个前沿科技领域深耕细作的杰出学者。其研究方向广泛且深入，涵盖计算机体系结构、并行算法、人工智能、大数据、计算机网络以及信息技术发展战略等。在计算机体系结构领域，他的研究成果推动了国内相关技术的革新，为高性能计算提供了理论支持；在人工智能研究中，他始终关注行业动态，以敏锐的洞察力剖析发展趋势，提出诸多建设性观点，为我国人工智能技术的发展指引方向。

近日，DeepSeek 的出现，在全球科技领域掀起了巨大的波澜，引发了学界和业界的广泛讨论。《科技导报》2025 年第 3 期刊发了李国杰院士的《DeepSeek 引发的 AI 发展路径思考》一文，深入探讨了 DeepSeek 背后的 AI 发展路径相关问题，见解深刻，极具启发性，今天就带大家详细解读。

DeepSeek 为何能引发全球性科技震撼

DeepSeek 的诞生堪称人工智能发展史上的又一个标志性事件。它在 7 天内用户增长破亿，创造了新的世界纪录，同时让芯片巨头英伟达的股价单日暴跌 17%，市值缩水 5890 亿美元。这一现象打破了人们对人工智能发展的固有认知，即高算力和高投入并非发展人工智能的唯一途径，集成电路制程优势也不等于人工智能技术霸权。

DeepSeek 引领 AI 行业进入了新阶段，更加注重算法和模型架构优化，同时兼顾数据质量与规模，合理提升算力。它还标志着中国科技公司在人工智能领域实现了角色转变，从追赶者变为规则改写者，以颠覆性创新挑战西方的 AI 霸权。

全球众多人工智能龙头企业纷纷采用 DeepSeek 的模型，如微软、亚马逊云科技、英伟达、AMD 等。这是因为 DeepSeek 在模型算法和系统软件方面有重大创新。例如，DeepSeek-V3 采用混合专家模型（MoE）架构，降低了训练计算成本；改进的多头潜在注意力机制（MLA），大幅减少了显存占用。DeepSeek-R1 模型则摒弃传统监督微调（SFT），提出群组相对策略优化（GRPO），降低了数据标注成本，简化了训练流程。这些创新让人们看到，推理模型的开发并非高不可攀，各行业都有机会参与。

“规模法则（Scaling Law）” 是否已达极限

2020 年 1 月，OpenAI 提出规模法则，认为增加模型规模、数据量和计算资源可以显著提升模型性能，这一法则被部分人奉为圭臬。然而，规模法则只是经验归纳，并非经过多次验证的科学定律。从实际情况来看，大模型训练要实现性能线性增长，需要在模型规模、数据量和算力投入上呈高指数增长，这种高投入难以持续。

强化学习之父理查德・萨顿也曾支持追求高算力，但他后来反思，规模法则并非万能，AI 系统还需要具备持续学习、适应环境等能力，这些仅靠增加算力无法实现。不过，目前也不能断言规模法则已走到尽头，毕竟人工神经网络与人脑的神经连接复杂性仍有差距。但 GPT-5 迟迟未问世，或许暗示着规模扩张的效果在减弱，图灵奖得主杨立昆等也认为规模法则已触及天花板。

DeepSeek 的出现，促使 AI 界重新思考发展路线：是继续投入巨资追求高算力，还是在算法优化上寻求突破？它标志着人工智能训练模式正从外延式发展转向内涵式发展，同时也表明，在注重算力的同时，降低能耗、追求高算效将是未来的重要方向。

发展 “通用人工智能”（AGI）的路径选择

“通用人工智能” 的定义尚未达成广泛共识，OpenAI 追求的 AGI 是指 AI 在多个领域以人类水平处理复杂问题的能力。但能解决复杂问题的人工智能未必就是通用人工智能，学术界更关注智能系统的持续学习和自我改进能力，以及基于常识与外部世界互动的能力。

人工智能的通用性是相对的，实现通用智能是一个渐进的过程。目前，DeepSeek 和 OpenAI 都以发展 AGI 为目标，但路径不同。OpenAI 走 “由通到专” 的路线，先打造通用基础模型，再衍生出行业垂直模型；而 DeepSeek 则选择 “由专到通”，通过模型算法和工程优化，探索在受限资源下实现通用人工智能的新路径。“由通到专” 和 “由专到通” 哪条路能成功，还需时间检验，也可能最终走向通专融合。

高算力还是高算效：AI 发展的关键抉择

图灵提出用计算模拟人类智能的假说，让计算在人工智能发展中占据重要地位，大模型更是凸显了算力的作用。然而，发展人工智能的初衷是模拟人脑，人脑是计算效率和能效极高的装置，功耗仅约 20W，采用的是分布式模拟计算。深度学习奠基人辛顿教授提出的 “凡人计算”，采用存算一体模拟计算方式，追求高算效和高能效，这才是人工智能发展的长远方向。

斯坦福大学李飞飞指导的团队以较低成本训练出性能出色的模型，证明了人工智能低成本化有很大潜力。DeepSeek 的成功也表明，AI 已进入追求高算效和高能效的新阶段，盲目追求高算力只会增加成本，阻碍人工智能的大规模普及。

“开源” 的强大力量

过去，开源大模型的性能与闭源大模型存在差距，但 DeepSeek 的出现改变了这一局面，其性能追上了闭源模型，增强了开源社区的信心。杨立昆认为开源模型正在超越闭源模型，这一评价意义重大，因为开源模式的兴起，对 AI 发展模式的变革影响深远。

企业不敢将数据交给私有 AI 平台，担心数据泄露，这使得人工智能在各行业的落地面临困难。DeepSeek 的开源模式解决了这一问题，企业和用户可将其小而精的模型下载到本地，离线也能训练出高效的垂直模型，实现了技术的民主化。开源模型对全球 AI 供应链至关重要，美国若继续限制开源 AI，中国有望在开源 AI 全球供应链中占据核心地位。开源模式还能加速 AI 进化，谁拥抱开源，谁就能在 AI 竞赛中赢得未来。

中国在人工智能领域的全球引领实力

有人认为 ChatGPT 是 0 到 1 的突破，DeepSeek 只是 1 到 N 的扩展，这种观点并不准确。人工智能的发展是一个不断提升智能化水平的过程，不存在明确的 0 到 1 界限。长期以来，中国企业多注重应用和商业模式创新，如今随着技术积累，已具备原创能力，DeepSeek 的成功或许是中国 AI 产业从 “技术跟跑” 迈向 “技术并跑和领跑” 的转折点。

不可否认，中国在人工智能基础研究和核心技术上与美国仍有差距，如在源头性论文和顶尖 AI 模型数量上，美国占据优势。但中国在 AI 领域的发展速度惊人，论文发表和专利授权数量已超过美国，在机器学习顶级会议上，中国作者数量大幅增长。而且，人工智能产业拼的是智力，中国有一批创新型小企业已进入世界前列，如 “杭州 6 小龙” 等，展现出引领全球的潜力。

中国实现人工智能自立自强的发力点

实现人工智能自立自强，离不开国家的顶层规划和资金支持，更要重视人才的使用培养和产业生态的构建，而自信心是克服困难的关键。DeepSeek 创始人梁文锋的自信为公司的成功奠定了基础，他大胆启用初出茅庐的年轻人，这种用人理念为公司带来了创新活力，也给传统教育和人才聘用模式带来了启示。

构建自主可控的产业生态是实现人工智能自立自强的难点。英伟达的优势不仅在于 GPU 芯片，更在于 CUDA 软件生态，DeepSeek 虽冲击了这一生态，但尚未完全突破。开发自主可控的 AI 软件工具系统，重构 AI 软件生态，需要国家组织力量，长期投入。

此外，资金投入对 AI 发展也很关键。2023 年，美国 AI 投资远超中国，中国投资市场规模萎缩，这需要引起重视。政府和资本界应共同构建健康的科创金融生态，为 AI 创新提供动力。同时，要通过政策引导，鼓励在各类设备上推广 AI 应用，提高国产硬件和软件的市场占有率，重视芯片设计和大模型的开源战略，优化算力资源与人工智能平台的适配，推动中国人工智能科研和应用走在世界前列。

DeepSeek 的出现为我们提供了思考 AI 发展的新视角，在未来的发展中，我们要充分借鉴其经验，不断探索创新，推动人工智能产业迈向新的高度。

查看全文

http://www.kler.cn/a/571852.html