李国杰院士 “七问” DeepSeek:深度剖析 AI 发展新态势
李国杰院士 “七问” DeepSeek:深度剖析 AI 发展新态势
在人工智能领域的探索之路上,李国杰院士凭借深厚的学术造诣和前瞻性的眼光,成为指引方向的重要灯塔。
李国杰院士任职于中国科学院计算技术研究所,担任研究员一职。他不仅是中国工程院院士,更是在多个前沿科技领域深耕细作的杰出学者。其研究方向广泛且深入,涵盖计算机体系结构、并行算法、人工智能、大数据、计算机网络以及信息技术发展战略等。在计算机体系结构领域,他的研究成果推动了国内相关技术的革新,为高性能计算提供了理论支持;在人工智能研究中,他始终关注行业动态,以敏锐的洞察力剖析发展趋势,提出诸多建设性观点,为我国人工智能技术的发展指引方向。
近日,DeepSeek 的出现,在全球科技领域掀起了巨大的波澜,引发了学界和业界的广泛讨论。《科技导报》2025 年第 3 期刊发了李国杰院士的《DeepSeek 引发的 AI 发展路径思考》一文,深入探讨了 DeepSeek 背后的 AI 发展路径相关问题,见解深刻,极具启发性,今天就带大家详细解读。
DeepSeek 为何能引发全球性科技震撼
DeepSeek 的诞生堪称人工智能发展史上的又一个标志性事件。它在 7 天内用户增长破亿,创造了新的世界纪录,同时让芯片巨头英伟达的股价单日暴跌 17%,市值缩水 5890 亿美元。这一现象打破了人们对人工智能发展的固有认知,即高算力和高投入并非发展人工智能的唯一途径,集成电路制程优势也不等于人工智能技术霸权。
DeepSeek 引领 AI 行业进入了新阶段,更加注重算法和模型架构优化,同时兼顾数据质量与规模,合理提升算力。它还标志着中国科技公司在人工智能领域实现了角色转变,从追赶者变为规则改写者,以颠覆性创新挑战西方的 AI 霸权。
全球众多人工智能龙头企业纷纷采用 DeepSeek 的模型,如微软、亚马逊云科技、英伟达、AMD 等。这是因为 DeepSeek 在模型算法和系统软件方面有重大创新。例如,DeepSeek-V3 采用混合专家模型(MoE)架构,降低了训练计算成本;改进的多头潜在注意力机制(MLA),大幅减少了显存占用。DeepSeek-R1 模型则摒弃传统监督微调(SFT),提出群组相对策略优化(GRPO),降低了数据标注成本,简化了训练流程。这些创新让人们看到,推理模型的开发并非高不可攀,各行业都有机会参与。
“规模法则(Scaling Law)” 是否已达极限
2020 年 1 月,OpenAI 提出规模法则,认为增加模型规模、数据量和计算资源可以显著提升模型性能,这一法则被部分人奉为圭臬。然而,规模法则只是经验归纳,并非经过多次验证的科学定律。从实际情况来看,大模型训练要实现性能线性增长,需要在模型规模、数据量和算力投入上呈高指数增长,这种高投入难以持续。
强化学习之父理查德・萨顿也曾支持追求高算力,但他后来反思,规模法则并非万能,AI 系统还需要具备持续学习、适应环境等能力,这些仅靠增加算力无法实现。不过,目前也不能断言规模法则已走到尽头,毕竟人工神经网络与人脑的神经连接复杂性仍有差距。但 GPT-5 迟迟未问世,或许暗示着规模扩张的效果在减弱,图灵奖得主杨立昆等也认为规模法则已触及天花板。
DeepSeek 的出现,促使 AI 界重新思考发展路线:是继续投入巨资追求高算力,还是在算法优化上寻求突破?它标志着人工智能训练模式正从外延式发展转向内涵式发展,同时也表明,在注重算力的同时,降低能耗、追求高算效将是未来的重要方向。
发展 “通用人工智能”(AGI)的路径选择
“通用人工智能” 的定义尚未达成广泛共识,OpenAI 追求的 AGI 是指 AI 在多个领域以人类水平处理复杂问题的能力。但能解决复杂问题的人工智能未必就是通用人工智能,学术界更关注智能系统的持续学习和自我改进能力,以及基于常识与外部世界互动的能力。
人工智能的通用性是相对的,实现通用智能是一个渐进的过程。目前,DeepSeek 和 OpenAI 都以发展 AGI 为目标,但路径不同。OpenAI 走 “由通到专” 的路线,先打造通用基础模型,再衍生出行业垂直模型;而 DeepSeek 则选择 “由专到通”,通过模型算法和工程优化,探索在受限资源下实现通用人工智能的新路径。“由通到专” 和 “由专到通” 哪条路能成功,还需时间检验,也可能最终走向通专融合。
高算力还是高算效:AI 发展的关键抉择
图灵提出用计算模拟人类智能的假说,让计算在人工智能发展中占据重要地位,大模型更是凸显了算力的作用。然而,发展人工智能的初衷是模拟人脑,人脑是计算效率和能效极高的装置,功耗仅约 20W,采用的是分布式模拟计算。深度学习奠基人辛顿教授提出的 “凡人计算”,采用存算一体模拟计算方式,追求高算效和高能效,这才是人工智能发展的长远方向。
斯坦福大学李飞飞指导的团队以较低成本训练出性能出色的模型,证明了人工智能低成本化有很大潜力。DeepSeek 的成功也表明,AI 已进入追求高算效和高能效的新阶段,盲目追求高算力只会增加成本,阻碍人工智能的大规模普及。
“开源” 的强大力量
过去,开源大模型的性能与闭源大模型存在差距,但 DeepSeek 的出现改变了这一局面,其性能追上了闭源模型,增强了开源社区的信心。杨立昆认为开源模型正在超越闭源模型,这一评价意义重大,因为开源模式的兴起,对 AI 发展模式的变革影响深远。
企业不敢将数据交给私有 AI 平台,担心数据泄露,这使得人工智能在各行业的落地面临困难。DeepSeek 的开源模式解决了这一问题,企业和用户可将其小而精的模型下载到本地,离线也能训练出高效的垂直模型,实现了技术的民主化。开源模型对全球 AI 供应链至关重要,美国若继续限制开源 AI,中国有望在开源 AI 全球供应链中占据核心地位。开源模式还能加速 AI 进化,谁拥抱开源,谁就能在 AI 竞赛中赢得未来。
中国在人工智能领域的全球引领实力
有人认为 ChatGPT 是 0 到 1 的突破,DeepSeek 只是 1 到 N 的扩展,这种观点并不准确。人工智能的发展是一个不断提升智能化水平的过程,不存在明确的 0 到 1 界限。长期以来,中国企业多注重应用和商业模式创新,如今随着技术积累,已具备原创能力,DeepSeek 的成功或许是中国 AI 产业从 “技术跟跑” 迈向 “技术并跑和领跑” 的转折点。
不可否认,中国在人工智能基础研究和核心技术上与美国仍有差距,如在源头性论文和顶尖 AI 模型数量上,美国占据优势。但中国在 AI 领域的发展速度惊人,论文发表和专利授权数量已超过美国,在机器学习顶级会议上,中国作者数量大幅增长。而且,人工智能产业拼的是智力,中国有一批创新型小企业已进入世界前列,如 “杭州 6 小龙” 等,展现出引领全球的潜力。
中国实现人工智能自立自强的发力点
实现人工智能自立自强,离不开国家的顶层规划和资金支持,更要重视人才的使用培养和产业生态的构建,而自信心是克服困难的关键。DeepSeek 创始人梁文锋的自信为公司的成功奠定了基础,他大胆启用初出茅庐的年轻人,这种用人理念为公司带来了创新活力,也给传统教育和人才聘用模式带来了启示。
构建自主可控的产业生态是实现人工智能自立自强的难点。英伟达的优势不仅在于 GPU 芯片,更在于 CUDA 软件生态,DeepSeek 虽冲击了这一生态,但尚未完全突破。开发自主可控的 AI 软件工具系统,重构 AI 软件生态,需要国家组织力量,长期投入。
此外,资金投入对 AI 发展也很关键。2023 年,美国 AI 投资远超中国,中国投资市场规模萎缩,这需要引起重视。政府和资本界应共同构建健康的科创金融生态,为 AI 创新提供动力。同时,要通过政策引导,鼓励在各类设备上推广 AI 应用,提高国产硬件和软件的市场占有率,重视芯片设计和大模型的开源战略,优化算力资源与人工智能平台的适配,推动中国人工智能科研和应用走在世界前列。
DeepSeek 的出现为我们提供了思考 AI 发展的新视角,在未来的发展中,我们要充分借鉴其经验,不断探索创新,推动人工智能产业迈向新的高度。