当前位置：首页 > article >正文

【AI】通过修改用户环境变量优化Ollama模型加载与访问

article 2025/2/9 13:22:30

文章目录

前言
一、Ollama是什么？
二、使用步骤
- 1. Ollama模型下载
- 2. Ollama可配置环境变量
- 3. 常见Ollama属性设置
- - 3.1 实现外网访问：
  - 3.2 模型默认下载切换到D盘
  - 3.3 模型加载到内存中保持24个小时
  - 3.4 修改默认端口11434端口为8080
  - 3.5 设置2个用户并发请求
  - 3.6 设置同时加载多个模型
总结

前言

最近通过Ollama在本地部署deepseek的帖子甚多，这里不再重复。但使用中，总会发现有不顺手的地方，这就需要通过Ollama参数优化的方法来实现。为方便大家，这里做个简单分享。

一、Ollama是什么？

Ollama是一个开源框架，主要用于在本地机器上运行和管理大型语言模型（LLM），可通过官网下载。

Download Ollama on Windows https://registry.ollama.ai/download/windows

二、使用步骤

1. Ollama模型下载

进入Ollama 官网，选择models就可进行模型下载
https://registry.ollama.ai/search
搜索到模型后，复制相关命令行，在cmd窗口运行即可。

2. Ollama可配置环境变量

OLLAMA_DEBUG: 显示额外的调试信息（例如：LLAMA_DEBUG=1）。
OLLAMA_HOST: Ollama 服务器的 IP 地址（默认值：127.0.0.1:11434）。
OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长（默认值：“5m”）。
OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量。
OLLAMA_MAX_QUEUE: 请求队列的最大长度。
OLLAMA_MODELS: 模型目录的路径。
OLLAMA_NUM_PARALLEL: 最大并行请求数。
OLLAMA_NOPRUNE: 启动时不修剪模型 blob。
OLLAMA_ORIGINS: 允许的源列表，使用逗号分隔。
OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型。
OLLAMA_TMPDIR: 临时文件的位置。
OLLAMA_FLASH_ATTENTION: 启用 Flash Attention。
OLLAMA_LLM_LIBRARY: 设置 LLM 库以绕过自动检测。

单次加载大模型，可通过临时修改参数，重启ollama serve 来实现。比如，增加并发请求参数OLLAMA_NUM_PARALLEL，启动命令如下：