当前位置: 首页 > article >正文

AI大模型:DeepSeek

近期DeepSeek产生了很大的影响力。首先来自于性能,给了业内一个很好的释放,缓解了HPC以及大规模集群被卡的焦虑。通过实验证实了小规模团队(公开资料显示规模约150左右)在资源受限的情况下(2M H100 GPU时),依然可以完成对领先大模型的实现与部署。后续观察该团队是否可以成为国服OpenAI
从技术观察的角度看DS模型,从结构、数据和算力看,各有可以说道的点。下面一一道来

文章目录

  • 一、DeepSeek模型
  • 二、DeepSeek数据
  • 三、DeepSeek训练方式(算力)

一、DeepSeek模型

  • 首先,从结构上MoE的忠实簇拥。MoE个人认为有较好的前景来自于人脑的思维和现行分析,负责不同任务的区域各有差别。同时,活动区域的强弱也影响力宿主的能力
  • 其次,Q、K、V的设计,通过不断尝试其生成方式MHA、GQA、QLA等,最终找到了一条适合的

二、DeepSeek数据

  • 首先扩充了精准数据的规模。这里有两点,一是摆脱错误数据的影响,学好不容易,学坏一出溜;二是数据增长的数据是线性的,前期积累数据使用完毕后,相比人类设计模型的能力,其增长速度十分缓慢;
  • 更充分利用无监督数据。这里预计可能回产生一种无监督遍历数据(这里的遍历是指量级上的大规模产生的无标签的数据)

三、DeepSeek训练方式(算力)

  • 反复强调了无回退训练方法。这里有一个关键要素在于

http://www.kler.cn/a/534426.html

相关文章:

  • 在VS Code中基于TypeScript使用Vue.js搭建Babylon.js的开发环境
  • JDK17主要特性
  • DeepSeek大模型介绍、本地化部署与使用!【AI大模型】
  • 5. scala高阶之traits
  • 控件【QT】
  • matlab小波交叉功率谱分析源代码
  • Linux跨平台编译StrongSwan Windows版
  • 深度学习篇---计算机视觉任务模型的剪裁、量化、蒸馏
  • Java面试题集合篇5:10道基础面试题
  • C++ RTTI
  • 如何利用i18n实现国际化
  • nginx日志查询top10
  • 代码随想录算法训练营打卡第56天
  • leetcode:LCR 179. 查找总价格为目标值的两个商品(python3解法)
  • ES6 const 使用总结
  • 美团-测试开发面试
  • DeepSeek推理模型架构以及DeepSeek爆火的原因
  • Vue 3 30天精进之旅:Day 15 - 插件和指令
  • 【spring容器管理】bean的生命周期有哪些拓展点?
  • 个人毕业设计--基于HarmonyOS的旅行助手APP的设计与实现(挖坑)
  • Java程序员 面试如何介绍项目经验?
  • 一表总结 Java 的3种设计模式与6大设计原则
  • 蓝桥杯翻转
  • 【100%通过率 】【华为OD机试c++/java/python】日志采集系统【 E卷 | 2023 Q1 |100分】
  • Linux特权组全解析:识别GID带来的权限提升风险
  • C++初阶 -- vector容器的接口详解