当前位置：首页 > article >正文

LM Studio、ollama本地部署运行多个AI

article 2025/3/28 4:03:18

1. 为什么要本地部署？

原因一：快！最主要的原因就是快！！由于现在很多人使用，所以在运行的时候会很慢，为了提升效率，自己部署一台或者多台本地AI；
原因二：所有运营AI都会由于过滤敏感信息，所以会存在信息丢失。

2. 如何选择工具

如果你想在本地运行多个 AI，可以考虑以下几种方案，具体取决于你的需求：

LM Studio（适合本地运行大语言模型）

特点：支持多个本地 LLM（如 LLaMA、Mistral、DeepSeek 等），界面友好，支持 Windows、macOS 和 Linux。
适用场景：本地运行大语言模型，离线聊天。
官网：https://lmstudio.ai

ollama（轻量级 LLM 运行工具）

特点：命令行工具，简洁易用，支持拉取多个模型，适用于 Mistral、LLaMA、Gemma 等。
适用场景：快速部署和切换多个 LLM。
官网：https://ollama.com

Text Generation WebUI（多模型管理）

特点：基于 Web 界面，支持多种 AI（LLM、Diffusion 模型等），可并行管理多个 AI。
适用场景：需要同时运行多个 AI，支持 API 访问。
GitHub：https://github.com/oobabooga/text-generation-webui

ComfyUI（Stable Diffusion AI 生成图像）

特点：节点式操作，支持多个 AI 模型（如 SDXL、DeepFloyd IF）。
适用场景：本地运行多个 AI 生成图像模型。
GitHub：https://github.com/comfyanonymous/ComfyUI

Automatic1111 WebUI（Stable Diffusion 图像生成）

特点：功能丰富，插件多，支持多个 SD 模型并行使用。
适用场景：本地运行多个 AI 图像生成模型。
GitHub：https://github.com/AUTOMATIC1111/stable-diffusion-webui

总结下来值得推荐的只有 LM Studio 和 ollama ，原因自己查。个人最喜欢 LM Studio ，所以我最后选择 LM Studio 。

3. 安装 LM Studio

1. 进入官网

https://lmstudio.ai/

2. 安装步骤

在最新的版本中，首次进入安装界面会提示安装语言模型，推荐是Llama 3.2 个人使用时足够的，普通人就选这个足够：
在这里插入图片描述
解释：Meta的最新Llama系列。小巧但功能强大的模型。针对多语言对话用例进行了优化，包括代理检索和摘要任务。

由于下载时间比较长，我们可以先进入程序体验：
在这里插入图片描述

设置中文

在这里插入图片描述

查看模型地址

在这里插入图片描述

正在使用的模型

在这里插入图片描述

配置指定的语言模型（DeepSeek为例）

访问魔塔社区：https://modelscope.cn/home
选择合适自己的模型
以 DeepSeek-R1 和 DeepSeek-R1-Distill-Qwen-1.5 为例
DeepSeek-R1 和 DeepSeek-R1-Distill-Qwen-1.5 的主要区别在于模型结构、训练方式和用途。

DeepSeek-R1

类型：基础大语言模型（LLM）
架构：基于 Transformer，具有较大参数量（可能数十亿级别）。
训练方式：在超大规模数据集上预训练，支持多种任务（问答、推理、编程等）。
特点：
- 具备强大的理解和生成能力，适用于通用对话和文本处理任务。
- 由于是全参数模型，计算需求较大，适用于高性能服务器或 GPU 设备。

2. DeepSeek-R1-Distill-Qwen-1.5

类型：精简（蒸馏）版的 DeepSeek-R1，结合 Qwen-1.5 进行训练优化。
架构：基于 DeepSeek-R1，但经过蒸馏（Distillation）处理，使其更轻量。
训练方式：
- 采用知识蒸馏（Distillation），让小模型学习大模型的能力，提高推理速度。
- 可能借鉴 Qwen-1.5（通义千问 1.5）的一些优化策略，以增强性能。
特点：
- 相比 DeepSeek-R1，体积更小、计算需求更低，适用于本地或低资源环境。
- 性能可能略低于原版，但更高效、更快，适合推理任务和边缘设备部署。

总结

模型	DeepSeek-R1	DeepSeek-R1-Distill-Qwen-1.5
规模	大（全参数）	小（蒸馏优化版）
训练	直接预训练	蒸馏自 DeepSeek-R1，并借鉴 Qwen-1.5
计算需求	高，需要较强的 GPU	低，适合轻量级推理
性能	更强的理解和推理能力	速度更快，适合本地或低资源环境
适用场景	通用 AI 任务、深度推理	本地运行、嵌入式 AI、低延迟应用

如果你是在本地运行 AI，DeepSeek-R1-Distill-Qwen-1.5 更适合，因为它的计算需求较低。如果你需要更强的性能，可以选择 DeepSeek-R1。

所以这里就下载DeepSeek-R1-Distill-Qwen-1.5

最后还要注意，一定要选GGUF 文件，原因是：
GGUF（GPT-Generated Unified Format） 是一种 优化后的二进制模型格式，专门用于高效推理和本地部署 LLM（大语言模型）。它是 GGML 格式的升级版，由 Georgi Gerganov 及社区开发，适用于 llama.cpp、Ollama、LM Studio 等轻量级推理框架。

选中DeepSeek-R1-Distill-Qwen-1.5 GGUF以后接着选择量化版本，这里先归纳一下不同版本的区别，先看图：
在这里插入图片描述

3. 量化版本解析

版本	体积	精度	速度	适用场景
Q2_K	752MB	极低	很快	低端 CPU、节省内存
Q2_K_L	807MB	低	很快	低端 CPU、快速推理
Q3_K_M	924MB	适中	快	兼顾质量和性能
Q4_K_M	1.12GB	中等	普通	质量较好，推荐
Q5_K_M	1.29GB	高	慢	质量更好，适合高性能 CPU
Q6_K	1.46GB	更高	较慢	质量接近 FP16，全局最优
Q8_0	1.89GB	最高	最慢	接近原始 FP16，高端设备