当前位置：首页 > article >正文

DeepSeek大模型系列

article 2025/2/4 19:26:51

DeepSeek 基本使用

对于DeepSeek 的使用来说，可以通过Web和APP两种方式就可以了：

Web网站使用地址： https://chat.deepseek.com/
APP的下载地址： https://download.deepseek.com/app/

以上两种方式注册账号就可以，使用是免费的。

DeepSeek API调用方式

如果需要使用DeepSeek 做一些批量或进阶的事情，则需要使用调用API的方式。API的调用方式和OpenAI 类似，以Python 语言为例，示例代码如下：

# Please install OpenAI SDK first: `pip3 install openai`

from openai import OpenAI

client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": "Hello"},
    ],
    stream=False
)

print(response.choices[0].message.content)

API的调用是需要费用的，目前的价格如下：

在这里插入图片描述

DeepSeek 模型系列和版本

如果要更细节的区分API调用的不同模型，或是将模型下载下来之后自行运行，则就需要区分不同的模型了，DeepSeek 官方站点显示的模型有以下：
在这里插入图片描述

这里还需要加上最近发布的DeepSeek-R1 模型(2025/01/20 发布)

看一下各主要版本的发布时间：

DeepSeek-R1 发布于 2025/01/20
DeepSeek-V3 发布于 2024/12/26
DeepSeek-V2.5 发布于 2024/09/05

DeepSeek-R1

DeepSeek-R1 遵循 MIT License，允许用户通过蒸馏技术借助 R1 训练其他模型。
性能对齐 OpenAI-o1 正式版
DeepSeek开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时，通过 DeepSeek-R1 的输出，蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

在这里插入图片描述

DeepSeek LLM

定位：通用领域大语言模型（基础模型）。
特点：
- 支持自然语言理解、生成和多轮对话。
- 覆盖广泛的知识领域，适用于通用问答、文本生成等任务。
- 通常作为其他垂直领域模型的基座。

DeepSeek Coder

定位：代码生成与理解专用模型。
特点：
- 支持多种编程语言（Python、Java、C++等）。
- 擅长代码补全、代码解释、调试及代码转换。
- 可能采用代码相关数据集进行微调，优化代码上下文理解能力。
典型应用：IDE插件、自动化编程工具。

DeepSeek Math

定位：数学推理与解题专用模型。
特点：
- 针对数学问题（如代数、几何、数论）进行优化。
- 支持分步推理、公式推导和解题过程解释。
- 可能结合符号计算与自然语言处理技术。
典型应用：教育辅助、数学工具集成。

4. DeepSeek VL（Vision-Language）

定位：多模态视觉语言模型。
特点：
- 支持图像与文本联合理解（如图像描述、视觉问答）。
- 可能集成目标检测、OCR等技术。
- 适用于跨模态任务（如文档解析、图文生成）。
典型应用：智能客服、内容审核、多媒体分析。

DeepSeek V2 与 V3

定位：通用模型的版本迭代。
差异：
- V2：可能优化了模型效率（如推理速度、显存占用）和上下文窗口长度。
- V3：进一步强化多轮对话能力、知识更新及复杂指令跟随，可能引入更高效的架构（如MoE）。
- 通常版本越高，综合性能越强，适用场景更广。

DeepSeek Coder V2

定位：代码模型的升级版本。
改进点（相比初代Coder）：
- 支持更长的代码上下文（如32k tokens）。
- 提升代码生成准确性及多语言覆盖。
- 可能集成代码仓库检索或实时调试反馈。

总结对比表

模型	核心领域	典型能力	版本迭代重点
DeepSeek LLM	通用任务	对话、文本生成	基础能力扩展
Coder	编程	代码生成、解释	多语言支持、上下文长度
Math	数学	解题、公式推导	推理准确性
VL	多模态（图像+文本）	图文理解、生成	跨模态对齐
V2/V3	通用优化	效率、多轮对话	架构创新（如MoE）