当前位置：首页 > article >正文

DeepSeek-R1-Distill-Qwen-1.5B：最佳小型LLM？

article 2025/3/6 17:11:12

DeepSeek掀起了生成式AI领域的风暴。

首先推出DeepSeek-v3，现在推出DeepSeek-R1，这两款模型都打破了所有基准，并且完全开源。

但今天我们不是在讨论这两款超级模型，而是讨论DeepSeek-R1的一个蒸馏版本——DeepSeek-R1-Distill-Qwen-1.5B，它可能是今天被低估的版本，虽然只有15亿个参数，但它悄无声息地在一些主要基准上超越了GPT-4和Claude 3.5 Sonnet。

首先，让我们了解一下：

什么是DeepSeek-R1的蒸馏模型？

DeepSeek-R1的蒸馏模型是通过蒸馏技术从更大版本的DeepSeek-R1模型中提取出来的紧凑高效版本。

这个过程将大型模型的知识和推理能力转移到更小的模型中，使它们能够在推理任务上表现良好，同时更加轻量、节省资源，并且更容易部署。

DeepSeek-R1发布的不同蒸馏模型包括：

lightgbm做分类

996引擎 - NPC-添加NPC引擎自带形象

前端【10】jQuery DOM 操作

【R语言】流程控制

ppp综合实验

Avalonia UI MVVM DataTemplate里绑定Command

FLUTTER 开发资料集(持续更新)

大数据Hadoop入门1

【设计模式-行为型】解释器模式

spring boot中使用spring-security案例