LM Studio、ollama本地部署运行多个AI
1. 为什么要本地部署?
原因一:快!最主要的原因就是快!!由于现在很多人使用,所以在运行的时候会很慢,为了提升效率,自己部署一台或者多台本地AI;
原因二:所有运营AI都会由于过滤敏感信息,所以会存在信息丢失。
2. 如何选择工具
如果你想在本地运行多个 AI,可以考虑以下几种方案,具体取决于你的需求:
LM Studio(适合本地运行大语言模型)
- 特点:支持多个本地 LLM(如 LLaMA、Mistral、DeepSeek 等),界面友好,支持 Windows、macOS 和 Linux。
- 适用场景:本地运行大语言模型,离线聊天。
- 官网:https://lmstudio.ai
ollama(轻量级 LLM 运行工具)
- 特点:命令行工具,简洁易用,支持拉取多个模型,适用于 Mistral、LLaMA、Gemma 等。
- 适用场景:快速部署和切换多个 LLM。
- 官网:https://ollama.com
Text Generation WebUI(多模型管理)
- 特点:基于 Web 界面,支持多种 AI(LLM、Diffusion 模型等),可并行管理多个 AI。
- 适用场景:需要同时运行多个 AI,支持 API 访问。
- GitHub:https://github.com/oobabooga/text-generation-webui
ComfyUI(Stable Diffusion AI 生成图像)
- 特点:节点式操作,支持多个 AI 模型(如 SDXL、DeepFloyd IF)。
- 适用场景:本地运行多个 AI 生成图像模型。
- GitHub:https://github.com/comfyanonymous/ComfyUI
Automatic1111 WebUI(Stable Diffusion 图像生成)
- 特点:功能丰富,插件多,支持多个 SD 模型并行使用。
- 适用场景:本地运行多个 AI 图像生成模型。
- GitHub:https://github.com/AUTOMATIC1111/stable-diffusion-webui
总结下来值得推荐的只有 LM Studio 和 ollama ,原因自己查。个人最喜欢 LM Studio ,所以我最后选择 LM Studio 。
3. 安装 LM Studio
1. 进入官网
https://lmstudio.ai/
2. 安装步骤
在最新的版本中,首次进入安装界面会提示安装语言模型,推荐是Llama 3.2 个人使用时足够的,普通人就选这个足够:
解释:Meta的最新Llama系列。小巧但功能强大的模型。针对多语言对话用例进行了优化,包括代理检索和摘要任务。
由于下载时间比较长,我们可以先进入程序体验:
设置中文
查看模型地址
正在使用的模型
配置指定的语言模型(DeepSeek为例)
- 访问魔塔社区:https://modelscope.cn/home
- 选择合适自己的模型
以DeepSeek-R1
和DeepSeek-R1-Distill-Qwen-1.5
为例
DeepSeek-R1 和 DeepSeek-R1-Distill-Qwen-1.5 的主要区别在于模型结构、训练方式和用途。
DeepSeek-R1
- 类型:基础大语言模型(LLM)
- 架构:基于 Transformer,具有较大参数量(可能数十亿级别)。
- 训练方式:在超大规模数据集上预训练,支持多种任务(问答、推理、编程等)。
- 特点:
- 具备强大的理解和生成能力,适用于通用对话和文本处理任务。
- 由于是全参数模型,计算需求较大,适用于高性能服务器或 GPU 设备。
2. DeepSeek-R1-Distill-Qwen-1.5
- 类型:精简(蒸馏)版的 DeepSeek-R1,结合 Qwen-1.5 进行训练优化。
- 架构:基于 DeepSeek-R1,但经过蒸馏(Distillation)处理,使其更轻量。
- 训练方式:
- 采用知识蒸馏(Distillation),让小模型学习大模型的能力,提高推理速度。
- 可能借鉴 Qwen-1.5(通义千问 1.5)的一些优化策略,以增强性能。
- 特点:
- 相比 DeepSeek-R1,体积更小、计算需求更低,适用于本地或低资源环境。
- 性能可能略低于原版,但更高效、更快,适合推理任务和边缘设备部署。
总结
模型 | DeepSeek-R1 | DeepSeek-R1-Distill-Qwen-1.5 |
---|---|---|
规模 | 大(全参数) | 小(蒸馏优化版) |
训练 | 直接预训练 | 蒸馏自 DeepSeek-R1,并借鉴 Qwen-1.5 |
计算需求 | 高,需要较强的 GPU | 低,适合轻量级推理 |
性能 | 更强的理解和推理能力 | 速度更快,适合本地或低资源环境 |
适用场景 | 通用 AI 任务、深度推理 | 本地运行、嵌入式 AI、低延迟应用 |
如果你是在本地运行 AI,DeepSeek-R1-Distill-Qwen-1.5 更适合,因为它的计算需求较低。如果你需要更强的性能,可以选择 DeepSeek-R1。
所以这里就下载DeepSeek-R1-Distill-Qwen-1.5
最后还要注意,一定要选GGUF 文件,原因是:
GGUF(GPT-Generated Unified Format)
是一种 优化后的二进制模型格式
,专门用于高效推理和本地部署 LLM(大语言模型)
。它是 GGML 格式的升级版
,由 Georgi Gerganov 及社区开发,适用于 llama.cpp、Ollama、LM Studio 等轻量级推理框架。
选中DeepSeek-R1-Distill-Qwen-1.5 GGUF以后接着选择量化版本,这里先归纳一下不同版本的区别,先看图:
3. 量化版本解析
版本 | 体积 | 精度 | 速度 | 适用场景 |
---|---|---|---|---|
Q2_K | 752MB | 极低 | 很快 | 低端 CPU、节省内存 |
Q2_K_L | 807MB | 低 | 很快 | 低端 CPU、快速推理 |
Q3_K_M | 924MB | 适中 | 快 | 兼顾质量和性能 |
Q4_K_M | 1.12GB | 中等 | 普通 | 质量较好,推荐 |
Q5_K_M | 1.29GB | 高 | 慢 | 质量更好,适合高性能 CPU |
Q6_K | 1.46GB | 更高 | 较慢 | 质量接近 FP16,全局最优 |
Q8_0 | 1.89GB | 最高 | 最慢 | 接近原始 FP16,高端设备 |
由表格可以看出,最推荐是Q4_K_M
查资料以后,官网推荐:
- MacBook(M1/M2) → Q4_K_M 或 Q5_K_M
- Windows 轻量运行(无 GPU) → Q3_K_M 或 Q4_K_M
- 高性能设备(32GB 内存以上) → Q6_K 或 Q8_0
我的电脑比较破,M2芯片,所以最后综合下来选择Q4_K_M。
4. 配置新模型
- 找到下载好的语言模型文件,放在指定的模型位置;
不知道位置点击:
一般安装正确都是可以选择的,选中以后就可以使用了。
注意使用完以后要从内存弹出!!!不然会一直占用内存
5. 删除不使用的模型
核实一下即可
到此基本操作就结束了。