当前位置: 首页 > article >正文

李国杰院士 “七问” DeepSeek:深度剖析 AI 发展新态势

李国杰院士 “七问” DeepSeek:深度剖析 AI 发展新态势

在人工智能领域的探索之路上,李国杰院士凭借深厚的学术造诣和前瞻性的眼光,成为指引方向的重要灯塔。

李国杰院士任职于中国科学院计算技术研究所,担任研究员一职。他不仅是中国工程院院士,更是在多个前沿科技领域深耕细作的杰出学者。其研究方向广泛且深入,涵盖计算机体系结构、并行算法、人工智能、大数据、计算机网络以及信息技术发展战略等。在计算机体系结构领域,他的研究成果推动了国内相关技术的革新,为高性能计算提供了理论支持;在人工智能研究中,他始终关注行业动态,以敏锐的洞察力剖析发展趋势,提出诸多建设性观点,为我国人工智能技术的发展指引方向。

近日,DeepSeek 的出现,在全球科技领域掀起了巨大的波澜,引发了学界和业界的广泛讨论。《科技导报》2025 年第 3 期刊发了李国杰院士的《DeepSeek 引发的 AI 发展路径思考》一文,深入探讨了 DeepSeek 背后的 AI 发展路径相关问题,见解深刻,极具启发性,今天就带大家详细解读。

 

DeepSeek 为何能引发全球性科技震撼

DeepSeek 的诞生堪称人工智能发展史上的又一个标志性事件。它在 7 天内用户增长破亿,创造了新的世界纪录,同时让芯片巨头英伟达的股价单日暴跌 17%,市值缩水 5890 亿美元。这一现象打破了人们对人工智能发展的固有认知,即高算力和高投入并非发展人工智能的唯一途径,集成电路制程优势也不等于人工智能技术霸权。

DeepSeek 引领 AI 行业进入了新阶段,更加注重算法和模型架构优化,同时兼顾数据质量与规模,合理提升算力。它还标志着中国科技公司在人工智能领域实现了角色转变,从追赶者变为规则改写者,以颠覆性创新挑战西方的 AI 霸权。

全球众多人工智能龙头企业纷纷采用 DeepSeek 的模型,如微软、亚马逊云科技、英伟达、AMD 等。这是因为 DeepSeek 在模型算法和系统软件方面有重大创新。例如,DeepSeek-V3 采用混合专家模型(MoE)架构,降低了训练计算成本;改进的多头潜在注意力机制(MLA),大幅减少了显存占用。DeepSeek-R1 模型则摒弃传统监督微调(SFT),提出群组相对策略优化(GRPO),降低了数据标注成本,简化了训练流程。这些创新让人们看到,推理模型的开发并非高不可攀,各行业都有机会参与。

 

“规模法则(Scaling Law)” 是否已达极限

2020 年 1 月,OpenAI 提出规模法则,认为增加模型规模、数据量和计算资源可以显著提升模型性能,这一法则被部分人奉为圭臬。然而,规模法则只是经验归纳,并非经过多次验证的科学定律。从实际情况来看,大模型训练要实现性能线性增长,需要在模型规模、数据量和算力投入上呈高指数增长,这种高投入难以持续。

强化学习之父理查德・萨顿也曾支持追求高算力,但他后来反思,规模法则并非万能,AI 系统还需要具备持续学习、适应环境等能力,这些仅靠增加算力无法实现。不过,目前也不能断言规模法则已走到尽头,毕竟人工神经网络与人脑的神经连接复杂性仍有差距。但 GPT-5 迟迟未问世,或许暗示着规模扩张的效果在减弱,图灵奖得主杨立昆等也认为规模法则已触及天花板。

DeepSeek 的出现,促使 AI 界重新思考发展路线:是继续投入巨资追求高算力,还是在算法优化上寻求突破?它标志着人工智能训练模式正从外延式发展转向内涵式发展,同时也表明,在注重算力的同时,降低能耗、追求高算效将是未来的重要方向。

 

发展 “通用人工智能”(AGI)的路径选择

“通用人工智能” 的定义尚未达成广泛共识,OpenAI 追求的 AGI 是指 AI 在多个领域以人类水平处理复杂问题的能力。但能解决复杂问题的人工智能未必就是通用人工智能,学术界更关注智能系统的持续学习和自我改进能力,以及基于常识与外部世界互动的能力。

人工智能的通用性是相对的,实现通用智能是一个渐进的过程。目前,DeepSeek 和 OpenAI 都以发展 AGI 为目标,但路径不同。OpenAI 走 “由通到专” 的路线,先打造通用基础模型,再衍生出行业垂直模型;而 DeepSeek 则选择 “由专到通”,通过模型算法和工程优化,探索在受限资源下实现通用人工智能的新路径。“由通到专” 和 “由专到通” 哪条路能成功,还需时间检验,也可能最终走向通专融合。

 

高算力还是高算效:AI 发展的关键抉择

图灵提出用计算模拟人类智能的假说,让计算在人工智能发展中占据重要地位,大模型更是凸显了算力的作用。然而,发展人工智能的初衷是模拟人脑,人脑是计算效率和能效极高的装置,功耗仅约 20W,采用的是分布式模拟计算。深度学习奠基人辛顿教授提出的 “凡人计算”,采用存算一体模拟计算方式,追求高算效和高能效,这才是人工智能发展的长远方向。

斯坦福大学李飞飞指导的团队以较低成本训练出性能出色的模型,证明了人工智能低成本化有很大潜力。DeepSeek 的成功也表明,AI 已进入追求高算效和高能效的新阶段,盲目追求高算力只会增加成本,阻碍人工智能的大规模普及。

 

“开源” 的强大力量

过去,开源大模型的性能与闭源大模型存在差距,但 DeepSeek 的出现改变了这一局面,其性能追上了闭源模型,增强了开源社区的信心。杨立昆认为开源模型正在超越闭源模型,这一评价意义重大,因为开源模式的兴起,对 AI 发展模式的变革影响深远。

企业不敢将数据交给私有 AI 平台,担心数据泄露,这使得人工智能在各行业的落地面临困难。DeepSeek 的开源模式解决了这一问题,企业和用户可将其小而精的模型下载到本地,离线也能训练出高效的垂直模型,实现了技术的民主化。开源模型对全球 AI 供应链至关重要,美国若继续限制开源 AI,中国有望在开源 AI 全球供应链中占据核心地位。开源模式还能加速 AI 进化,谁拥抱开源,谁就能在 AI 竞赛中赢得未来。

 

中国在人工智能领域的全球引领实力

有人认为 ChatGPT 是 0 到 1 的突破,DeepSeek 只是 1 到 N 的扩展,这种观点并不准确。人工智能的发展是一个不断提升智能化水平的过程,不存在明确的 0 到 1 界限。长期以来,中国企业多注重应用和商业模式创新,如今随着技术积累,已具备原创能力,DeepSeek 的成功或许是中国 AI 产业从 “技术跟跑” 迈向 “技术并跑和领跑” 的转折点。

不可否认,中国在人工智能基础研究和核心技术上与美国仍有差距,如在源头性论文和顶尖 AI 模型数量上,美国占据优势。但中国在 AI 领域的发展速度惊人,论文发表和专利授权数量已超过美国,在机器学习顶级会议上,中国作者数量大幅增长。而且,人工智能产业拼的是智力,中国有一批创新型小企业已进入世界前列,如 “杭州 6 小龙” 等,展现出引领全球的潜力。

 

中国实现人工智能自立自强的发力点

实现人工智能自立自强,离不开国家的顶层规划和资金支持,更要重视人才的使用培养和产业生态的构建,而自信心是克服困难的关键。DeepSeek 创始人梁文锋的自信为公司的成功奠定了基础,他大胆启用初出茅庐的年轻人,这种用人理念为公司带来了创新活力,也给传统教育和人才聘用模式带来了启示。

构建自主可控的产业生态是实现人工智能自立自强的难点。英伟达的优势不仅在于 GPU 芯片,更在于 CUDA 软件生态,DeepSeek 虽冲击了这一生态,但尚未完全突破。开发自主可控的 AI 软件工具系统,重构 AI 软件生态,需要国家组织力量,长期投入。

此外,资金投入对 AI 发展也很关键。2023 年,美国 AI 投资远超中国,中国投资市场规模萎缩,这需要引起重视。政府和资本界应共同构建健康的科创金融生态,为 AI 创新提供动力。同时,要通过政策引导,鼓励在各类设备上推广 AI 应用,提高国产硬件和软件的市场占有率,重视芯片设计和大模型的开源战略,优化算力资源与人工智能平台的适配,推动中国人工智能科研和应用走在世界前列。

DeepSeek 的出现为我们提供了思考 AI 发展的新视角,在未来的发展中,我们要充分借鉴其经验,不断探索创新,推动人工智能产业迈向新的高度。


http://www.kler.cn/a/571852.html

相关文章:

  • 【Elasticsearch】ignore_malformed
  • 数据库二三事(9)
  • 从像素到体验:解码UI设计的未来进化论
  • SQL Server数据库中用存储过程来取顺序号
  • LLM 大语言模型定义以及关键技术术语认知
  • 基于FPGA的一些常识问题
  • GIT工具学习【2】:分支
  • OpenWebUI提示器:Prompt工程的“智能助手”还是“自动化革命”?
  • 【网络编程】之TCP实现客户端远程控制服务器端及断线重连
  • 分布式锁—2.Redisson的可重入锁一
  • 75.继承计时器类 WPF例子 C#例子
  • 网络基础概述
  • Java多线程与高并发专题——HashMap 为什么是线程不安全的?
  • GIT的上传和下载
  • C 语言共用体:深入理解与实践】
  • 【音视频】图像基础概念
  • IO学习day2
  • vue3:初学 vue-router 路由配置
  • 删除pytorch
  • 贪心算法--给定一个只包含X和.字符串