当前位置：首页 > article >正文

开源先锋DeepSeek-V3 LLM 大语言模型本地调用，打造自己专属 AI 助手

article 2025/1/30 13:47:55

DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型，总共有 671B 个参数。为了实现高效的推理和经济高效的训练，DeepSeek-V3 采用了多头潜在注意力机制 (MLA) 和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了彻底的验证。此外，DeepSeek-V3 开创了一种无辅助损失的负载平衡策略，并设置了多 token 预测训练目标以获得更强大的性能。

DeepSeek-V3在 14.8 万亿个多样化和高质量的 token 上进行了预训练，然后进行监督微调和强化学习阶段，以充分利用其性能。综合评估表明，DeepSeek-V3 优于其他开源模型，并实现了与领先的闭源模型相当的性能。尽管性能出色，但 DeepSeek-V3 仅需要 2.788M H800 GPU 小时即可完成完整训练。此外，它的训练过程非常稳定。在整个训练过程中，没有遇到任何无法恢复的损失峰值或执行任何回滚操作。

DeepSeek-V3作为一个开源的模型，得到了业界的一致好评，其DeepSeek官网网站也更新了模型，可以直接在DeepSeek官网进行 AI 对话。

前期我们介绍过 ollama以及Lobe Chat的安装教程，可以参考往期的内容进行下载安装，并下载预训练模型，打造本地 AI 助手。ollama官网已经更新到了DeepSeek-V2.5，其 V3 版本是网友在 hugging face 上面共享的模型，若电脑配置不高，可以使用此版本的模型。

ollama run deepseek-v2.5
ollama run deepseek-v3

DeepSeek-V3作为一个开源模型，可以直接在 GitHub 上面找到对应的模型代码以及预训练权重，若喜欢代码的同学，可以直接运行代码，但是针对其他小伙伴可以考虑直接使用DeepSeek-V3的 API，遥想当年，大家为申请一个 openai的 API 使出各种绝招，如今大语言模型层出不穷，且开源的模型很多性能也是趋近了闭源模型（比如 meta 的 llama系列）

DeepSeek-V3模型也提供了 API 接口，我们可以直接在DeepSeek-V3官网申请自己的 API 接口，一旦申请成功，后台给了免费 500 万 tokens 的使用额度，针对小型的应用调试也是足够了。我们只需要申请自己的 API keys 即可。

得到 API keys 后，喜欢玩代码的小伙伴可以使用 openai库进行代码的调用，调用代码兼容 openai的代码，直接使用 openai库进行调用即可。

# Please install OpenAI SDK first: `pip3 install openai`
from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": "Hello"},
    ],
    stream=False
)
print(response.choices[0].message.content)

当然我们可以直接在 vscode 中也可以直接来使用DeepSeek-V3模型，打开 vscode 编辑器，在扩展程序中安装 Cline 即可。

安装完成后，选择 deep seek 模型，并添加自己的 API keys，我们就可以跟DeepSeek-V3模型聊天了。

在输入框中输入对应的问题，就可以跟DeepSeek-V3聊天，若模型回复其问题，说明我们配置成功了DeepSeek-V3的 API，当然这里也支持其他模型的 API，比如 Google Gemini，open-ai以及ollama等等。

DeepSeek-V3 是由深度求索公司开发的先进大型语言模型，代表了其AI模型系列的第三代，在自然语言理解、推理能力和上下文感知方面有显著改进。主要特点包括：

架构：基于改进注意力机制的Transformer神经网络，整体模型框架使用 transformer 模型，当然最后在前馈神经网络阶段，使用了 MoE混合专家模型，有关 transformer 模型以及混合专家模型，可以参考往期内容。
规模：包含数千亿参数，用于全面的知识表示
能力：擅长文本生成、翻译、问答和代码生成等任务
训练：利用海量数据集和先进训练技术提升性能
应用：用于AI助手、内容创作和数据分析等领域

关于DeepSeek-V3模型的更多细节，可以参考 GitHub 上面的公开论文。

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file
https://www.deepseek.com/

更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：启示AI科技

动画详解transformer 在线教程