当前位置: 首页 > article >正文

一文了解DeepSeek

1. DeepSeek 的起源

  • 创立时间:DeepSeek 于 2023 年由中国的梁文锋创立。

  • V3 模型训练成本:最终训练成本为 600 万美元。

  • 开源:DeepSeek 提供开源版本。

  • 流行度:DeepSeek R1 模型成为 Apple 应用商店中下载量最高的应用。

2. 模型架构

  • 专家混合(MoE)架构:采用 Mixture of Experts(MoE)架构,这种架构通过专家网络提高效率和性能。

  • 学习方法:DeepSeek R1 使用 Group Relative Policy Optimization (GRPO) 学习方法:

    • 通过强化学习不断增强推理能力。

    • 结合精调(Fine Tune)与 GRPO 的双向循环,优化模型性能。

3. DeepSeek 模型统计

  • 基础模型规模:拥有 6710 亿参数。

  • 动态参数激活:激活动态参数规模为 370 亿。

  • 训练数据:使用 14.8 万亿个 token 进行训练。

  • MoE 架构:包含 16 个专家网络。

4. 性能与成本

  • 上下文窗口:支持高达 128K tokens 的上下文窗口。

  • 处理速度:每秒可处理 14.2 tokens

  • API 成本:处理 100 万 tokens 的输入和输出约为 8 美元。

  • 硬件需求:仅需 2000 张 Nvidia 显卡,而非传统模型的 16000 张。

5. OpenAI 的对比

  • 架构

    • DeepSeek:采用 MoE 架构,拥有 256 个推理专家。

    • OpenAI:采用 Transformer 编码器-解码器结构。

  • 参数效率

    • DeepSeek:使用 FP8 混合精度。

    • OpenAI:标准 transformer 实现。

  • 内存优化

    • DeepSeek:多头潜在注意力机制。

    • OpenAI:多头自注意力机制。

  • 训练速度

    • DeepSeek:训练时间约 90 天,使用 2000 张显卡。

    • OpenAI:需要 25000 张显卡,耗时超 100 天。

  • MATI-500 性能

    • DeepSeek:得分 97.3%。

    • OpenAI:得分 96.4%。

  • 编码能力

    • DeepSeek:Codeforces 评估 ELO 分数为 2029。

    • OpenAI:估计分数为 1673。

  • 成本效率

    • DeepSeek:API 成本 2-8 美元/百万 tokens。

    • OpenAI:API 成本 15-60 美元/百万 tokens。

6. 关键能力

  • 核心能力:编码、数学、推理、语言处理、搜索、API 集成等。

  • 附加功能

    • 研究与上下文整合:支持高效的科研任务。

    • 资源节约:相较于传统大模型具有更低成本。


http://www.kler.cn/a/529612.html

相关文章:

  • 2 MapReduce
  • hunyuan 混元学习
  • GenAI 在金融服务领域的应用:2025 年的重点是什么
  • 第一个Python程序
  • Python3 【闭包】项目实战:5个新颖的学习案例
  • EasyExcel使用详解
  • Linux学习之DNS基础服务器搭建
  • Java死锁问题
  • OpenAI深夜反击:o3-mini免费上线,能否撼动DeepSeek的地位?
  • 青少年编程与数学 02-008 Pyhon语言编程基础 14课题、创建函数
  • C++ Primer 标准库类型string
  • C#面试常考随笔10:C#中有哪些常用的容器类,各有什么特点?
  • 如何使用SliverGrid组件
  • 【含文档+PPT+源码】基于微信小程序连锁药店商城
  • 2025年02月01日Github流行趋势
  • AI赋能医疗信息化与医保新政双轮驱动:医药生物行业投资机遇深度解析
  • MySQL存储过程和存储函数_mysql 存储过 call proc_stat_data(3,null)
  • C++【iostream】数据库的部分函数功能介绍
  • docker部署SpringBoot项目简单流程
  • Kotlin/Js Kotlin 编译为 JS (尝试)
  • 【产品经理学习案例——AI翻译棒出海业务】
  • C# List 列表综合运用实例⁓Hypak原始数据处理编程小结
  • VSCode插件Live Server
  • 【LangChain】Chapter11 - Question Answering
  • 通过Redisson构建延时队列并实现注解式消费
  • 【C++语言】卡码网语言基础课系列----14. 链表的基础操作II