当前位置: 首页 > article >正文

ollama注册自定义模型(GGUF格式)

文章目录

    • ollama注册自定义模型(GGUF格式)
      • 下载模型
      • 注册模型(GGUF格式)

ollama注册自定义模型(GGUF格式)

  • 需要全程开启ollama

    nohup ollama serve > ollama.log 2>&1 &
    
  • 需要注意,尽管手动下载的GGUF格式模型权重是阿里官方发布的模型权重,但仍然会偶尔出现和ollama不兼容,导致胡言乱语的情况出现。如果希望使用ollama进行推理,优先建议使用ollama pull命令下载ollama官方的GGUF格式。

  • 以下是用阿里自己开源的qwq32b-GGUF格式来演示

下载模型

  • ollama支持调用手动下载的GGUF格式模型,我们以modelscope中的为例子

    https://modelscope.cn/models/Qwen/QwQ-32B-GGUF

    image-20250315142822967

    复制下载命令(稍后需要更改),我们还是下载Q4_K_M量化的QwQ-32B,注意这个不是ollama自己量化的版本。

    找到量化版本复制名称:qwq-32b-q4_k_m.gguf
    image-20250315143009442

    # 创建目录存放QwQ-32B的GGUF格式
    cd /root/lanyun-tmp
    mkdir QwQ-32B-GGUF
    
    # 下载,指定下载 qwq-32b-q4_k_m.gguf 单个文件到指定文件夹下
    download --model Qwen/QwQ-32B-GGUF qwq-32b-q4_k_m.gguf --local_dir ./QwQ-32B-GGUF
    

    image-20250315143210990


注册模型(GGUF格式)

  • 查看当前ollama中已有的模型

    ollama list
    

    image-20250315144214235

  • 创建文件,用于进行ollama模型注册

    cd  /root/lanyun-tmp/QwQ-32B-GGUF
    
    vim ModelFile
    

    添加如下

    FROM ./qwq-32b-q4_k_m.gguf

    保存

  • 在当前目录下,使用ollama创建导入模型

    cd /root/lanyun-tmp/QwQ-32B-GGUF
    
    ollama create qwq-32b -f ModelFile
    

    等待成功后即可查看

    image-20250315150034297

  • 后续直接使用即可

    ollama run qwq-32b
    

    显存占用大概是在22G左右
    image-20250315174434526


http://www.kler.cn/a/588221.html

相关文章:

  • Python游戏开发自学指南:从入门到实践(第四天)
  • JVM并发编程AQSsync锁ReentrantLock线程池ThreadLocal
  • 我的创作纪念日--林戈的IT生涯-CSDN博客创作一年感想
  • 使用 `Express.js` 和 `better-sqlite3` 的最佳实践指南
  • 【Java】为在Azure容器应用中运行的Java应用捕获JVM堆转储
  • HTML5 drag API实现列表拖拽排序
  • Solana介绍
  • css3-学习
  • InfluxDB写入测试
  • C++20 的 `std::remove_cvref`:简化类型处理的利器
  • 简单的电子和电力知识学习大纲
  • 蓝桥杯刷题周计划(第三周)
  • LLM论文笔记 25: Chain-of-Thought Reasoning without Prompting
  • Python----数据分析(Pandas一:pandas库介绍,pandas操作文件读取和保存)
  • Linux驱动开发实战(六):设备树升级!插件设备树点灯!
  • 统计数字字符个数(信息学奥赛一本通-1129)
  • vscode 导入语句排序和删除未使用的导入
  • 虚拟电商-延迟任务的设计实现
  • 同一子网通信
  • 关于stac和clac的进一步细节及EFLAGS