全面认识了解DeepSeek+利用ollama在本地部署、使用和体验deepseek-r1大模型
文章目录
- 一、DeepSeek简介
- 二、技术特点
- 三、架构设计
- 3.1、DeepSeek-V3
- 3.2、DeepSeek-V2
- 3.3、DeepSeek-R1
- 四、DeepSeek算法
- 4.1、DeepSeek LLM 算法
- 4.2、DeepSeek-V2 算法
- 4.3、DeepSeek-R1 算法
- 4.4、DeepSeek 在算力优化上的算法
- 五、DeepSeek的使用
- 六、本地部署DeepSeek R1模型
- 6.1、安装Ollama
- 6.2、下载DeepSeek R1模型
一、DeepSeek简介
DeepSeek 是一家专注于人工智能领域的创新型科技公司;成立于2023年7月;公司名称:杭州深度求索人工智能基础技术研究有限公司。
大事件:
- 2025 年 1 月,其相关应用登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜,在美区下载榜上超越了 ChatGPT。
- 受 DeepSeek 冲击,2025 年 1 月 27 日美国人工智能主题股票遭抛售,美国芯片巨头英伟达股价历史性暴跌,纳斯达克综合指数大幅下跌。
发展历程及产品发布
- 2024 年 1 月 5 日,发布 DeepSeek LLM,这是深度求索的第一个大模型,包含 670 亿参数,全部开源。
- 2024 年 1 月 25 日,发布 DeepSeek-Coder,由一系列代码语言模型组成,在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。
- 2024 年 2 月 5 日,发布 DeepSeek Math,以 DeepSeek-Coder-V1.5 7B 为基础进行预训练,在竞赛级 Math 基准测试中取得了 51.7% 的优异成绩。
- 2024 年 3 月 11 日,发布 DeepSeek-VL,是一个开源的视觉 - 语言(VL)模型,在各种视觉任务中能捕捉关键语义和细节信息。
- 2024 年 5 月 7 日,发布第二代开源混合专家(MoE)模型 DeepSeek-V2,包含 2360 亿个总参数,以经济高效的训练和推理为特点。
- 2024 年 6 月 17 日,发布 DeepSeek-Coder-V2,在代码特定任务中达到了与 GPT4-Turbo 相当的性能。
- 2024 年 12 月 13 日,发布用于高级多模态理解的专家混合视觉语言模型 DeepSeek-VL2,在多种任务中展现了卓越的能力。
- 2024 年 12 月 26 日,发布 DeepSeek-V3 首个版本并同步开源,为自研 MoE 模型,生成速度相比 V2.5 模型实现了 3 倍的提升。
- 2025 年 01 月 20 日DeepSeek-R1 发布,性能对标 OpenAI o1 正式版;DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
- 蒸馏小模型超越 OpenAI o1-mini:在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
二、技术特点
- 性能强劲:在知识类任务、美国数学竞赛和全国高中数学联赛等测试中表现出色,大幅超过部分开源闭源模型,在多语言编程测试排行榜中,仅次于 OpenAI o1 大模型。
- 开源特性:多个模型完全开源,如 DeepSeek-V3 等,采用 Apache2.0 许可证,开发者和研究人员可以对其进行访问、使用、研究、修改和分享。
- 多语言支持:支持多达 20 种语言的实时翻译和语音识别,在中文能力上与 Qwen2.5-72B 在部分评测集上表现相近。
- 训练成本低:如 DeepSeek-V3 的训练仅使用了 2048 个 H800 GPU,其 API 服务定价也具有较高的性价比。
免费,开源,成本低,算法强,性能高
三、架构设计
DeepSeek 不同模型在 Transformer 架构基础上进行了诸多创新;
3.1、DeepSeek-V3
多头潜注意力(MLA)
- 计算分解:将键和值向量的计算分解成两个步骤,引入潜变量。把传统计算键和值向量从原材料到产品的加工,加入了 “中间产品” 潜向量,将原本的矩阵分解成两个较小矩阵,在推理时只缓存潜向量,大大节省存储空间。
- 低秩压缩:利用不同注意力头之间信息重叠的特性,通过低秩压缩提取共同信息,允许不同注意力头以不同方式使用这些信息,减少冗余,还可能对训练产生正则化效果。
混合专家模型(MoE)的进化
- 无辅助损失的负载均衡:抛弃传统在训练损失中添加辅助损失项的方法,采用动态偏置项。为每个专家设置可学习偏置项并加到专家亲和力上,若某个专家被激活次数过少,就增加其偏置项,使其更易被选中,避免辅助损失带来的性能损害。
- 共享专家机制:通过共享专家机制,不同的任务或数据可以共享一些通用的专家,提高专家的利用率,进一步提升模型的效率和泛化能力,避免路由崩溃。
多令牌预测(MTP):传统模型一般逐个预测 token,MTP 技术可以一次预测多个 token,使模型推理速度更快,生成内容更连贯,提升了模型的生成效率和质量。
3.2、DeepSeek-V2
- Transformer 核心:每个 Transformer 块由一个注意力模块和一个前馈网络(FFN)组成,为模型提供基础的并行计算和长序列处理能力,能够捕捉文本中的长距离依赖关系。
- MLA 架构:减少计算量和推理显存,让模型在处理长文本等任务时,能更高效地利用资源,提升处理速度和性能。
- DeepSeekMoE:自研的 Sparse 结构,进一步降低计算量,与 MLA 结合实现模型性能跨级别的提升,在拥有大量参数的情况下,保持高效的计算和推理。
- 训练框架:基于高效且轻量级的框架 HAI-LLM 进行训练,采用 16-way zero - bubble pipeline 并行、8-way 专家并行和 ZeRO-1 数据并行,提高训练效率,充分利用计算资源,加速模型收敛。
3.3、DeepSeek-R1
- 知识蒸馏架构:通过知识蒸馏架构,将长链推理模型的能力传递给标准的 LLM,提升标准 LLM 的推理能力,使模型能够更好地处理复杂的推理任务。
- 强化学习架构:以纯强化学习架构训练 R1-Zero,让模型在试错中学习,探索新的训练方式,为模型训练提供新方向,尽管存在一些问题,但具有一定的创新性和探索价值。
- 多阶段训练架构:引入多阶段训练和冷启动数据,在不同训练阶段采用不同方法,并在模型开始学习前提供高质量数据,帮助模型更好地初始化和学习,提高模型的训练效果和稳定性。
四、DeepSeek算法
DeepSeek 算法以 Transformer 架构为基础,采用了多种技术来提升性能和效率;
4.1、DeepSeek LLM 算法
架构方面
- 核心 Transformer 架构:采用自回归 Transformer 解码器架构,以注意力机制为核心,能并行计算,高效处理长序列数据,捕捉文本长距离依赖关系,让模型更好理解上下文语义。
- 分组查询注意力(GQA):在 670 亿参数版本中采用 GQA 技术,优化推理成本,在保持性能同时减少计算量,提高模型运行效率。
- 旋转位置编码(Rotary Embedding):采用旋转位置编码表示位置信息,让模型能区分不同位置的文本信息,更好捕捉文本顺序和结构,提升语言理解和生成能力。
训练优化方面
- 优化器:选择 AdamW 优化器,结合了 Adam 优化器和权重衰减技术,有效调整模型参数更新步长,防止过拟合,有助于模型快速稳定收敛。
- 学习率策略:采用独特的多步学习率计划,根据训练阶段和数据特点调整学习率,在不同训练时期为模型提供合适学习率,提高训练效率和模型性能。
- 微调技术:使用监督微调(SFT)和直接偏好优化(DPO)技术,基于预训练模型,在特定任务数据集上微调,使模型输出更符合任务需求,提升在具体任务上的性能表现。
4.2、DeepSeek-V2 算法
- 混合专家(MoE)架构:采用混合专家架构,由多个专家网络和门控网络组成,根据输入数据动态选择激活部分专家网络处理,提高模型表示能力和灵活性,降低计算成本和存储需求。
- 海量数据预训练:在包含 8.1 万亿 token 的多样化且高质量语料库上预训练,让模型学习丰富语言知识和模式,掌握不同领域、主题和语言风格特点,提升泛化能力。
- 强化学习优化:完成预训练后,通过强化学习进一步优化,基于奖励信号调整模型参数,使模型生成结果更符合人类期望和任务目标,提升模型性能和实用性。
4.3、DeepSeek-R1 算法
- 无监督强化学习:通过无监督强化学习技术改进数据处理方式,无需人工标注数据,模型自动从无监督数据中学习特征和模式,降低数据标注成本,提高数据利用效率,在 MMLU 基准测试中,自生成合成数据质量达人工标注数据的 92%。
- 稀疏激活特性:具有稀疏激活特性,运行时仅激活部分参数处理输入数据,减少计算量和存储需求,提高模型运行速度和效率,提升输出可信度,达到金融业务合规标准。
4.4、DeepSeek 在算力优化上的算法
- FP8 精度格式:引入 FP8 精度格式,提高计算效率,在传统计算模式下单卡有效算力仅为 18TFLOPS,通过 FP8 格式应用,算力跃升至 42TFLOPS,降低了硬件成本。
- 参数效率优化:遵循参数效率高于绝对参数量的原则,其 130B 参数模型在 GSM8K 测试中表现优于传统 340B 模型,注重提升参数利用效率,而非单纯增加参数量来提高模型性能。
五、DeepSeek的使用
DeepSeek 的入口可以通过以下方式:
- 网页:https://chat.deepseek.com/;
- App:在各大应用商店搜索 DeepSeek 下载就行,记得认准蓝色鲸鱼 Logo。
六、本地部署DeepSeek R1模型
本文使用Ollama和Open WebGUI这两个工具在本地部署DeepSeek R1模型;
6.1、安装Ollama
Ollama是一个用于管理和部署机器学习模型的工具。
下载window安装版本ollama :https://ollama.com/download
#安装ollama到指定目录
OllamaSetup.exe /DIR="E:\DevelopmentEnvironment\ollama"
安装完成后测试访问:
http://localhost:11434/
6.2、下载DeepSeek R1模型
通过ollama官网下载deepseek-r1:1.5b模型:
ollama run deepseek-r1:1.5b
安装完成后,就可以通过命令行的形式与deepseek-r1进行对话了
你独自走过了很多艰难时刻;新的一年你一定要幸福啊!