AI大模型:DeepSeek
近期DeepSeek产生了很大的影响力。首先来自于性能,给了业内一个很好的释放,缓解了HPC以及大规模集群被卡的焦虑。通过实验证实了小规模团队(公开资料显示规模约150左右)在资源受限的情况下(2M H100 GPU时),依然可以完成对领先大模型的实现与部署。后续观察该团队是否可以成为国服OpenAI。
从技术观察的角度看DS模型,从结构、数据和算力看,各有可以说道的点。下面一一道来
文章目录
- 一、DeepSeek模型
- 二、DeepSeek数据
- 三、DeepSeek训练方式(算力)
一、DeepSeek模型
- 首先,从结构上MoE的忠实簇拥。MoE个人认为有较好的前景来自于人脑的思维和现行分析,负责不同任务的区域各有差别。同时,活动区域的强弱也影响力宿主的能力
- 其次,Q、K、V的设计,通过不断尝试其生成方式MHA、GQA、QLA等,最终找到了一条适合的
二、DeepSeek数据
- 首先扩充了精准数据的规模。这里有两点,一是摆脱错误数据的影响,学好不容易,学坏一出溜;二是数据增长的数据是线性的,前期积累数据使用完毕后,相比人类设计模型的能力,其增长速度十分缓慢;
- 更充分利用无监督数据。这里预计可能回产生一种无监督遍历数据(这里的遍历是指量级上的大规模产生的无标签的数据)
三、DeepSeek训练方式(算力)
- 反复强调了无回退训练方法。这里有一个关键要素在于