当前位置: 首页 > article >正文

【杂谈】-DeepSeek如何以560万美元突破成本障碍

DeepSeek如何以560万美元突破成本障碍

文章目录

  • DeepSeek如何以560万美元突破成本障碍
    • 1、高效人工智能的经济学
    • 2、实现不可能的工程
    • 3、人工智能生态系统的连锁反应

传统的人工智能观点认为,构建大型语言模型 (LLM)需要大量资金——通常需要数十亿美元的投资。但中国人工智能初创公司DeepSeek的最新成果打破了这一模式:仅用 560 万美元就开发出了一个世界级的人工智能模型。

DeepSeek 的V3 模型可以与谷歌 Gemini和OpenAI 的最新产品等行业巨头一较高下,同时仅使用典型计算资源的一小部分。这一成就引起了许多行业领袖的关注,尤其引人注目的是,尽管面临美国出口限制,无法获得最新的Nvidia 芯片,该公司仍取得了这一成就。

1、高效人工智能的经济学

这些数字说明了效率的惊人。虽然大多数先进的人工智能模型需要16,000到100,000个 GPU 进行训练,但DeepSeek仅用2,048个GPU运行了57天。该模型的训练在Nvidia H800芯片上消耗了278万个 GPU 小时——对于 6710 亿个参数的模型来说,这个数字非常适中。

从这个角度来看,Meta 需要大约 3080 万个GPU 小时(大约是计算能力的 11 倍)来训练其Llama 3 模型,而该模型的参数实际上更少,只有 4050 亿个。DeepSeek 的方法类似于在约束条件下进行优化的大师班。借助 H800 GPU(Nvidia 专为中国市场设计的、功能有限的 AI 芯片),该公司将潜在的限制转化为创新。他们没有使用现成的解决方案进行处理器通信,而是开发了可最大限度提高效率的定制解决方案。

尽管竞争对手仍然认为需要进行大规模投资,但 DeepSeek 已证明,独创性和高效的资源利用可以使竞争更加公平。

在这里插入图片描述

图片来源:https://artificialanalysis.ai/models/deepseek-v3

2、实现不可能的工程

DeepSeek 的成就在于其创新的技术方法,表明有时最有影响力的突破来自于在约束条件下工作,而不是投入无限的资源来解决问题。

这项创新的核心是一种称为“无辅助损失负载平衡(auxiliary-loss-free load balancing)”的策略。可以将其想象成协调一个大规模并行处理系统,传统上,您需要复杂的规则和惩罚才能使一切顺利运行。DeepSeek 颠覆了这种传统观念,开发了一种可以自然保持平衡的系统,而无需传统方法的开销。

该团队还率先采用了所谓的“多标记预测”(Multi-Token Prediction,MTP)技术,该技术通过同时预测多个标记,让模型提前思考。在实践中,这意味着这些预测在各个主题中的接受率高达 85-90%,处理速度比以前的方法快 1.8 倍。

技术架构本身就是效率的杰作。DeepSeek 的 V3 采用混合专家(mixture-of-experts,MoE)方法,总共有 6710 亿个参数,但巧妙之处在于它只为每个 token 激活 370 亿个参数。这种选择性激活意味着他们可以获得大规模模型的好处,同时保持实际效率。

他们选择 FP8 混合精度训练框架是又一次飞跃。他们没有接受传统的精度降低限制,而是开发了定制解决方案,在保持精度的同时显著降低了内存和计算要求。

3、人工智能生态系统的连锁反应

DeepSeek 的成就的影响远远超出了一个成功的模型。

对于欧洲的人工智能发展来说,这一突破意义非凡。许多先进的模型无法进入欧盟,因为像 Meta 和 OpenAI 这样的公司无法或不愿适应欧盟的《人工智能法案》。DeepSeek 的方法表明,构建尖端人工智能并不总是需要大规模的 GPU 集群——更重要的是高效利用可用资源。

这一发展也表明出口限制实际上可以推动创新。DeepSeek 对高端硬件的有限使用迫使他们以不同的方式思考,从而实现了在资源丰富的环境中可能永远不会出现的软件优化。这一原则可能会重塑我们在全球范围内处理人工智能开发的方式。

尽管行业巨头仍在投入数十亿美元,但 DeepSeek 已经为高效、经济的 AI 开发制定了蓝图。这可能会为之前因资源限制而无法竞争的小型公司和研究机构打开大门。

然而,这并不意味着大规模计算基础设施正在变得过时。业界正在将重点转向扩展推理时间——模型生成答案所需的时间。随着这一趋势的持续,大量计算资源仍将是必要的,随着时间的推移,这种需求可能会更加迫切。

但 DeepSeek 从根本上改变了这一话题。其长期影响显而易见:我们正在进入一个创新思维和高效资源利用比单纯的计算能力更重要的时代。对于人工智能社区来说,这意味着不仅要关注我们拥有什么资源,还要关注我们如何创造性和高效地利用这些资源。


http://www.kler.cn/a/471344.html

相关文章:

  • 从零开始开发纯血鸿蒙应用之实现起始页
  • Swin-Transformer
  • 免费一键图片转3D模型,AI建模,一键把图片转三维模型,二维图片转3维模型,AI建模
  • Mysql--基础篇--数据类型(整数,浮点数,日期,枚举,二进制,空间类型等)
  • 怎么管理电脑usb接口,分享四种USB端口管理方法
  • UDP -- 简易聊天室
  • Arduino IDE刷微控制器并下载对应固件的原由
  • SpringCloud系列教程:微服务的未来(六)docker教程快速入门、常用命令
  • thinnkphp5.1和 thinkphp6以及nginx,apache 解决跨域问题
  • Gary Marcus 预测2025年AI发展的25项展望:深刻反思与前瞻
  • 青少年编程与数学 02-006 前端开发框架VUE 09课题、计算属性
  • Django的runserver
  • 书籍推荐:Kubernetes 修炼手册
  • 121 买入股票的最佳时机
  • C4D2025 win版本安装完无法打开,提示请将你的maxon App更新至最新版本,如何解决
  • RabbitMQ如何实现队列持久化
  • Python数据可视化-Pandas绘图
  • ubuntu20.04 在线安装postgresql 扩展postgis
  • UVM:uvm_component methods configure
  • 【HarmonyOS 5.0】从0到1开发购物应用App(二):登录页对接口
  • Elixir语言的计算机基础
  • idea下java的maven项目编译内存溢出GC overhead limit exceeded解决办法
  • javafx 将项目打包为 Windows 的可执行文件exe
  • 【开源免费】基于SpringBoot+Vue.JS多维分类的知识管理系统(JAVA毕业设计)
  • Chrome访问https页面显示ERR_CERT_INVALID,且无法跳过继续访问
  • Python自学 - 封装与私有化