当前位置: 首页 > article >正文

DeepSeek大模型系列

DeepSeek 基本使用

对于DeepSeek 的使用来说,可以通过Web和APP两种方式就可以了:

  • Web网站使用地址: https://chat.deepseek.com/
  • APP的下载地址: https://download.deepseek.com/app/

以上两种方式注册账号就可以,使用是免费的。

DeepSeek API调用方式

如果需要使用DeepSeek 做一些批量或进阶的事情,则需要使用调用API的方式。API的调用方式和OpenAI 类似, 以Python 语言为例,示例代码如下:

# Please install OpenAI SDK first: `pip3 install openai`

from openai import OpenAI

client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": "Hello"},
    ],
    stream=False
)

print(response.choices[0].message.content)

API的调用是需要费用的,目前的价格如下:

在这里插入图片描述

DeepSeek 模型系列和版本

如果要更细节的区分API调用的不同模型,或是将模型下载下来之后自行运行,则就需要区分不同的模型了,DeepSeek 官方站点显示的模型有以下:
在这里插入图片描述

这里还需要加上最近发布的DeepSeek-R1 模型(2025/01/20 发布)

看一下各主要版本的发布时间:

  • DeepSeek-R1 发布于 2025/01/20
  • DeepSeek-V3 发布于 2024/12/26
  • DeepSeek-V2.5 发布于 2024/09/05

DeepSeek-R1

  • DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。
  • 性能对齐 OpenAI-o1 正式版
    DeepSeek开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

在这里插入图片描述


DeepSeek LLM

  • 定位:通用领域大语言模型(基础模型)。
  • 特点
    • 支持自然语言理解、生成和多轮对话。
    • 覆盖广泛的知识领域,适用于通用问答、文本生成等任务。
    • 通常作为其他垂直领域模型的基座。

DeepSeek Coder

  • 定位代码生成与理解专用模型。
  • 特点
    • 支持多种编程语言(Python、Java、C++等)。
    • 擅长代码补全、代码解释、调试及代码转换。
    • 可能采用代码相关数据集进行微调,优化代码上下文理解能力。
  • 典型应用:IDE插件、自动化编程工具。

DeepSeek Math

  • 定位数学推理与解题专用模型。
  • 特点
    • 针对数学问题(如代数、几何、数论)进行优化。
    • 支持分步推理、公式推导和解题过程解释。
    • 可能结合符号计算与自然语言处理技术。
  • 典型应用:教育辅助、数学工具集成。

4. DeepSeek VL(Vision-Language)

  • 定位多模态视觉语言模型
  • 特点
    • 支持图像与文本联合理解(如图像描述、视觉问答)。
    • 可能集成目标检测、OCR等技术。
    • 适用于跨模态任务(如文档解析、图文生成)。
  • 典型应用:智能客服、内容审核、多媒体分析。

DeepSeek V2 与 V3

  • 定位:通用模型的版本迭代
  • 差异
    • V2:可能优化了模型效率(如推理速度、显存占用)和上下文窗口长度。
    • V3:进一步强化多轮对话能力、知识更新及复杂指令跟随,可能引入更高效的架构(如MoE)。
    • 通常版本越高,综合性能越强,适用场景更广。

DeepSeek Coder V2

  • 定位:代码模型的升级版本
  • 改进点(相比初代Coder):
    • 支持更长的代码上下文(如32k tokens)。
    • 提升代码生成准确性及多语言覆盖。
    • 可能集成代码仓库检索或实时调试反馈。

总结对比表

模型核心领域典型能力版本迭代重点
DeepSeek LLM通用任务对话、文本生成基础能力扩展
Coder编程代码生成、解释多语言支持、上下文长度
Math数学解题、公式推导推理准确性
VL多模态(图像+文本)图文理解、生成跨模态对齐
V2/V3通用优化效率、多轮对话架构创新(如MoE)

注意事项

  • 具体技术细节(如参数量、训练数据)需参考官方文档或论文。
  • 部分模型可能仅限企业API或特定场景开放。
  • 建议通过 DeepSeek官网 获取最新信息。



http://www.kler.cn/a/531467.html

相关文章:

  • 【爬虫】JS逆向解决某药的商品价格加密
  • Docker入门篇(Docker基础概念与Linux安装教程)
  • GWO优化SVM回归预测matlab
  • gdb 调试多进程中多线程的方法
  • 15 刚体变换模块(rigid.rs)
  • 高阶开发基础——快速入门C++并发编程2
  • Visual Studio Code应用本地部署的deepseek
  • 高并发、高可用的消息队列(MQ)设计与实战
  • 前端架构师的职责之我见
  • 计算图 Compute Graph 和自动求导 Autograd | PyTorch 深度学习实战
  • 基于STM32的智能安防监控系统
  • Kubernetes常见问答(一)
  • 15 刚体变换模块(rigid.rs)
  • 模型/O功能之提示词模板
  • android java 用系统弹窗的方式实现模拟点击动画特效
  • GPT与Deepseek等数据驱动AI的缺点
  • PythonStyle MVC 开发框架
  • 简单理解精确率(Precision)和召回率(Recall)
  • 轮播库-swiper使用案例
  • CommonJS 和 ES6module 的区别
  • Linux系统下安装配置 Nginx 超详细图文教程
  • 梯度、梯度下降、最小二乘法
  • 快速上手mybatis教程
  • XCCL、NCCL、HCCL通信库
  • 算法基础——一致性
  • 强化学习笔记(5)——PPO