当前位置: 首页 > article >正文

使用 Ollama 部署 TinyLlama (1.1B) 的完整流程,包含直接拉取和手动部署两种方案

以下是使用 Ollama 部署 TinyLlama (1.1B) 的完整流程,包含直接拉取和手动部署两种方案:


方案一:直接通过 Ollama 官方库部署(推荐)

1. 安装 Ollama
# Linux/macOS 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# Windows 用户:从官网下载安装包
# https://ollama.com/download
2. 拉取并运行 TinyLlama
# 自动下载模型(约 300MB)
ollama run tinyllama

# 测试问答
>>> 用一句话解释什么是人工智能
>>> 写一首关于春天的五言绝句

方案二:手动部署(适合网络差/离线环境)

1. 提前下载 TinyLlama GGUF 文件
  • 下载地址
    TinyLlama-1.1B-Chat-v1.0.Q4_K_M.gguf
    (约 300MB)

  • 手动下载命令

    wget https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf
    
2. 创建 Modelfile

新建文件 TinyLlama-Modelfile(无后缀),内容:

FROM ./tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf
SYSTEM "你是一个响应简洁的助手,回答不超过50字。"
PARAMETER temperature 0.7
PARAMETER num_threads 4  # 根据CPU核心数调整
3. 导入模型到 Ollama
# 进入模型所在目录
cd ~/Downloads  # 假设GGUF文件在此目录

# 创建模型
ollama create tinyllama-custom -f TinyLlama-Modelfile

# 运行模型
ollama run tinyllama-custom

验证部署

1. 检查模型列表
ollama list
# 应显示:
# NAME              ID           SIZE   MODIFIED
# tinyllama-custom  xxxxxxx      300MB  2分钟前
2. 性能监控
# Linux/macOS 查看资源占用
htop  # 或 top

# Windows 用户:使用任务管理器查看CPU/内存

参数调优建议

Modelfile 中可添加以下参数优化性能:

PARAMETER num_threads 4       # CPU线程数(建议设为物理核心数)
PARAMETER num_gqa 1          # 减少注意力头分组(低配置设备必选)
PARAMETER repeat_penalty 1.2 # 抑制重复生成
PARAMETER seed 42            # 固定随机种子(测试时用)

常见问题解决

  1. 报错:Model file not found

    • 确保 Modelfile 中的 FROM 路径正确
    • 建议使用绝对路径:FROM /home/user/models/tinyllama.gguf
  2. 回复速度慢

    • 减少 num_threads 值(如设为2)
    • 添加 PARAMETER num_predict 32 限制生成长度
  3. 中文回复不流畅

    • TinyLlama 中文能力有限,可尝试以下方案:
      SYSTEM "请用简体中文回答,语言简洁口语化。"
      PARAMETER temperature 0.9  # 提高创造性
      

对比其他量化版本

量化等级文件大小精度适用场景
Q4_K_M300MB平衡性能与速度
Q2_K150MB内存极度受限环境
Q8_0600MB最高需要高精度推理

如需更小体积,可下载 Q2_K 版本:

wget https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/tinyllama-1.1b-chat-v1.0.Q2_K.gguf

通过以上步骤,10分钟内即可在本地完成 TinyLlama 的轻量化部署。建议先用默认参数运行,再根据硬件性能逐步调整优化。


http://www.kler.cn/a/528136.html

相关文章:

  • 华硕笔记本装win10哪个版本好用分析_华硕笔记本装win10专业版图文教程
  • arkts bridge使用示例
  • 代码随想录day3
  • 2848、与车相交的点
  • 算法随笔_33: 132模式
  • mysql教程
  • 电子电气架构 --- 汽车电子拓扑架构的演进过程
  • Android记事本App设计开发项目实战教程2025最新版Android Studio
  • ComfyUI中For Loop的使用
  • C++初阶 -- 手撕string类(模拟实现string类)
  • LeetCode:279.完全平方数
  • 2.1刷题日记
  • Java基础——分层解耦——IOC和DI入门
  • 介绍使用 WGAN(Wasserstein GAN)网络对天然和爆破的地震波形图进行分类的实现步骤
  • 走向基于大语言模型的新一代推荐系统:综述与展望
  • Python安居客二手小区数据爬取(2025年)
  • 吊打同类软件免费又可批量使用
  • 【RAG】SKLearnVectorStore 避免使用gpt4all会connection err
  • 92,[8] 攻防世界 web Web_php_wrong_nginx_config
  • 基于SpringBoot的医疗报销系统的设计与实现(源码+SQL脚本+LW+部署讲解等)
  • WebForms DataList 深入解析
  • Nginx 运维开发高频面试题详解
  • 浅析DNS污染及防范
  • 【cocos creator】【模拟经营】餐厅经营demo
  • 【Linux】使用VirtualBox部署Linux虚拟机
  • [LeetCode]day10 707.设计链表