当前位置：首页 > article >正文

使用 Ollama 部署 TinyLlama (1.1B) 的完整流程，包含直接拉取和手动部署两种方案

article 2025/2/2 6:58:33

以下是使用 Ollama 部署 TinyLlama (1.1B) 的完整流程，包含直接拉取和手动部署两种方案：

方案一：直接通过 Ollama 官方库部署（推荐）

1. 安装 Ollama

# Linux/macOS 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# Windows 用户：从官网下载安装包
# https://ollama.com/download

2. 拉取并运行 TinyLlama

# 自动下载模型（约 300MB）
ollama run tinyllama

# 测试问答
>>> 用一句话解释什么是人工智能
>>> 写一首关于春天的五言绝句

方案二：手动部署（适合网络差/离线环境）

1. 提前下载 TinyLlama GGUF 文件

下载地址：
TinyLlama-1.1B-Chat-v1.0.Q4_K_M.gguf
（约 300MB）

手动下载命令：

wget https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf

2. 创建 Modelfile

新建文件 TinyLlama-Modelfile（无后缀），内容：

FROM ./tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf
SYSTEM "你是一个响应简洁的助手，回答不超过50字。"
PARAMETER temperature 0.7
PARAMETER num_threads 4  # 根据CPU核心数调整

3. 导入模型到 Ollama

# 进入模型所在目录
cd ~/Downloads  # 假设GGUF文件在此目录

# 创建模型
ollama create tinyllama-custom -f TinyLlama-Modelfile

# 运行模型
ollama run tinyllama-custom

验证部署

1. 检查模型列表

ollama list
# 应显示：
# NAME              ID           SIZE   MODIFIED
# tinyllama-custom  xxxxxxx      300MB  2分钟前

2. 性能监控

# Linux/macOS 查看资源占用
htop  # 或 top

# Windows 用户：使用任务管理器查看CPU/内存

参数调优建议

在 Modelfile 中可添加以下参数优化性能：

PARAMETER num_threads 4       # CPU线程数（建议设为物理核心数）
PARAMETER num_gqa 1          # 减少注意力头分组（低配置设备必选）
PARAMETER repeat_penalty 1.2 # 抑制重复生成
PARAMETER seed 42            # 固定随机种子（测试时用）

常见问题解决

报错：Model file not found
- 确保 Modelfile 中的 FROM 路径正确
- 建议使用绝对路径：FROM /home/user/models/tinyllama.gguf
回复速度慢
- 减少 num_threads 值（如设为2）
- 添加 PARAMETER num_predict 32 限制生成长度

中文回复不流畅

TinyLlama 中文能力有限，可尝试以下方案：

SYSTEM "请用简体中文回答，语言简洁口语化。"
PARAMETER temperature 0.9  # 提高创造性

对比其他量化版本

量化等级	文件大小	精度	适用场景
Q4_K_M	300MB	高	平衡性能与速度
Q2_K	150MB	低	内存极度受限环境
Q8_0	600MB	最高	需要高精度推理

如需更小体积，可下载 Q2_K 版本：

wget https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/tinyllama-1.1b-chat-v1.0.Q2_K.gguf

通过以上步骤，10分钟内即可在本地完成 TinyLlama 的轻量化部署。建议先用默认参数运行，再根据硬件性能逐步调整优化。

查看全文

http://www.kler.cn/a/528136.html

华硕笔记本装win10哪个版本好用分析_华硕笔记本装win10专业版图文教程

电子电气架构 --- 汽车电子拓扑架构的演进过程

Android记事本App设计开发项目实战教程2025最新版Android Studio

ComfyUI中For Loop的使用

C++初阶 -- 手撕string类(模拟实现string类)

LeetCode：279.完全平方数

2.1刷题日记

Java基础——分层解耦——IOC和DI入门

介绍使用 WGAN（Wasserstein GAN）网络对天然和爆破的地震波形图进行分类的实现步骤

走向基于大语言模型的新一代推荐系统：综述与展望

Python安居客二手小区数据爬取(2025年)

吊打同类软件免费又可批量使用

【RAG】SKLearnVectorStore 避免使用gpt4all会connection err

92,[8] 攻防世界 web Web_php_wrong_nginx_config

基于SpringBoot的医疗报销系统的设计与实现(源码+SQL脚本+LW+部署讲解等)

WebForms DataList 深入解析

Nginx 运维开发高频面试题详解

浅析DNS污染及防范

【cocos creator】【模拟经营】餐厅经营demo

【Linux】使用VirtualBox部署Linux虚拟机

[LeetCode]day10 707.设计链表