当前位置: 首页 > article >正文

LM Studio、ollama本地部署运行多个AI

1. 为什么要本地部署?

原因一:快!最主要的原因就是快!!由于现在很多人使用,所以在运行的时候会很慢,为了提升效率,自己部署一台或者多台本地AI;
原因二:所有运营AI都会由于过滤敏感信息,所以会存在信息丢失。

2. 如何选择工具

如果你想在本地运行多个 AI,可以考虑以下几种方案,具体取决于你的需求:

LM Studio(适合本地运行大语言模型)

  • 特点:支持多个本地 LLM(如 LLaMA、Mistral、DeepSeek 等),界面友好,支持 Windows、macOS 和 Linux。
  • 适用场景:本地运行大语言模型,离线聊天。
  • 官网:https://lmstudio.ai

ollama(轻量级 LLM 运行工具)

  • 特点:命令行工具,简洁易用,支持拉取多个模型,适用于 Mistral、LLaMA、Gemma 等。
  • 适用场景:快速部署和切换多个 LLM。
  • 官网:https://ollama.com

Text Generation WebUI(多模型管理)

  • 特点:基于 Web 界面,支持多种 AI(LLM、Diffusion 模型等),可并行管理多个 AI。
  • 适用场景:需要同时运行多个 AI,支持 API 访问。
  • GitHub:https://github.com/oobabooga/text-generation-webui

ComfyUI(Stable Diffusion AI 生成图像)

  • 特点:节点式操作,支持多个 AI 模型(如 SDXL、DeepFloyd IF)。
  • 适用场景:本地运行多个 AI 生成图像模型。
  • GitHub:https://github.com/comfyanonymous/ComfyUI

Automatic1111 WebUI(Stable Diffusion 图像生成)

  • 特点:功能丰富,插件多,支持多个 SD 模型并行使用。
  • 适用场景:本地运行多个 AI 图像生成模型。
  • GitHub:https://github.com/AUTOMATIC1111/stable-diffusion-webui

总结下来值得推荐的只有 LM Studio 和 ollama ,原因自己查。个人最喜欢 LM Studio ,所以我最后选择 LM Studio 。

3. 安装 LM Studio

1. 进入官网

https://lmstudio.ai/

2. 安装步骤

在最新的版本中,首次进入安装界面会提示安装语言模型,推荐是Llama 3.2 个人使用时足够的,普通人就选这个足够:
在这里插入图片描述
解释:Meta的最新Llama系列。小巧但功能强大的模型。针对多语言对话用例进行了优化,包括代理检索和摘要任务。

由于下载时间比较长,我们可以先进入程序体验:
在这里插入图片描述

设置中文

在这里插入图片描述
在这里插入图片描述

查看模型地址

在这里插入图片描述
在这里插入图片描述

正在使用的模型

在这里插入图片描述

配置指定的语言模型(DeepSeek为例)
  1. 访问魔塔社区:https://modelscope.cn/home
    在这里插入图片描述
  2. 选择合适自己的模型
    DeepSeek-R1DeepSeek-R1-Distill-Qwen-1.5 为例
    DeepSeek-R1 和 DeepSeek-R1-Distill-Qwen-1.5 的主要区别在于模型结构、训练方式和用途。

DeepSeek-R1

  • 类型:基础大语言模型(LLM)
  • 架构:基于 Transformer,具有较大参数量(可能数十亿级别)。
  • 训练方式:在超大规模数据集上预训练,支持多种任务(问答、推理、编程等)。
  • 特点
    • 具备强大的理解和生成能力,适用于通用对话和文本处理任务。
    • 由于是全参数模型,计算需求较大,适用于高性能服务器或 GPU 设备。

2. DeepSeek-R1-Distill-Qwen-1.5

  • 类型:精简(蒸馏)版的 DeepSeek-R1,结合 Qwen-1.5 进行训练优化。
  • 架构:基于 DeepSeek-R1,但经过蒸馏(Distillation)处理,使其更轻量。
  • 训练方式
    • 采用知识蒸馏(Distillation),让小模型学习大模型的能力,提高推理速度。
    • 可能借鉴 Qwen-1.5(通义千问 1.5)的一些优化策略,以增强性能。
  • 特点
    • 相比 DeepSeek-R1,体积更小、计算需求更低,适用于本地或低资源环境。
    • 性能可能略低于原版,但更高效、更快,适合推理任务和边缘设备部署。

总结

模型DeepSeek-R1DeepSeek-R1-Distill-Qwen-1.5
规模大(全参数)小(蒸馏优化版)
训练直接预训练蒸馏自 DeepSeek-R1,并借鉴 Qwen-1.5
计算需求高,需要较强的 GPU低,适合轻量级推理
性能更强的理解和推理能力速度更快,适合本地或低资源环境
适用场景通用 AI 任务、深度推理本地运行、嵌入式 AI、低延迟应用

如果你是在本地运行 AI,DeepSeek-R1-Distill-Qwen-1.5 更适合,因为它的计算需求较低。如果你需要更强的性能,可以选择 DeepSeek-R1。

所以这里就下载DeepSeek-R1-Distill-Qwen-1.5

最后还要注意,一定要选GGUF 文件,原因是:
GGUF(GPT-Generated Unified Format) 是一种 优化后的二进制模型格式专门用于高效推理和本地部署 LLM(大语言模型)它是 GGML 格式的升级版,由 Georgi Gerganov 及社区开发,适用于 llama.cpp、Ollama、LM Studio 等轻量级推理框架。

选中DeepSeek-R1-Distill-Qwen-1.5 GGUF以后接着选择量化版本,这里先归纳一下不同版本的区别,先看图:
在这里插入图片描述

3. 量化版本解析

版本体积精度速度适用场景
Q2_K752MB极低很快低端 CPU、节省内存
Q2_K_L807MB很快低端 CPU、快速推理
Q3_K_M924MB适中兼顾质量和性能
Q4_K_M1.12GB中等普通质量较好,推荐
Q5_K_M1.29GB质量更好,适合高性能 CPU
Q6_K1.46GB更高较慢质量接近 FP16,全局最优
Q8_01.89GB最高最慢接近原始 FP16,高端设备

由表格可以看出,最推荐是Q4_K_M

查资料以后,官网推荐

  • MacBook(M1/M2) → Q4_K_M 或 Q5_K_M
  • Windows 轻量运行(无 GPU) → Q3_K_M 或 Q4_K_M
  • 高性能设备(32GB 内存以上) → Q6_K 或 Q8_0

我的电脑比较破,M2芯片,所以最后综合下来选择Q4_K_M

4. 配置新模型

  1. 找到下载好的语言模型文件,放在指定的模型位置;
    在这里插入图片描述
    不知道位置点击:
    在这里插入图片描述
    在这里插入图片描述
    一般安装正确都是可以选择的,选中以后就可以使用了。

注意使用完以后要从内存弹出!!!不然会一直占用内存
在这里插入图片描述

5. 删除不使用的模型

在这里插入图片描述
核实一下即可
在这里插入图片描述
到此基本操作就结束了。


http://www.kler.cn/a/594170.html

相关文章:

  • 玩转物联网-4G模块如何快速将数据上传到巴法云(TCP篇)
  • Java解析多层嵌套JSON数组并将数据存入数据库示例
  • 软考中级-软件设计师 准备
  • 【redis】AOF 的基本工作机制,顺序写入,文件同步,重写机制
  • JAVA URL和URI差异对比
  • 星型组网和路由器组网的区别
  • UMA架构下的GPU 显存
  • CSS 用于图片的样式属性
  • 基于微信小程序的充电桩管理系统
  • vector和list的区别是什么
  • OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建
  • 如何用日事清做研发目标、需求、规划、迭代、Bug、效能、复盘、绩效一站式管理
  • 前后端联调解决跨域问题的方案
  • 基于springboot的房产销售系统(016)
  • Linux 一步部署DHCP服务
  • mysql5.6忘记密码怎么重置mysql密码
  • rust学习笔记16-206.反转链表(递归)
  • 第7章 类与面向对象
  • Kotlin v2.1.20 发布,标准库又有哪些变化?
  • 使用Java爬虫根据关键词获取Shopee商品列表?