当前位置: 首页 > article >正文

如何手动使用下载并且运行 QwQ-32B-GGUF

首先使用安装

pip install ModelScope

使用 ModelScope 下载对应的模型

modelScope download --model Qwen/QwQ-32B-GGUF qwq-32b-q4_k_m.gguf

第二步开始下载 ollama

git clone https://githubfast.com/ggerganov/llama.cpp # githubfast.com 可以加速下载

切换到目录,并且新增编译目录

mkdir build 
cd build 

开始设置编译,根据不同的系统架构可以选择不同的编译指令

cd build 
# CPU 编译
cmake .. -DCMAKE_BUILD_TYPE=Release

# NVIDIA GPU 加速:
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_CUDA=ON
# Apple Silicon 加速:
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_METAL=ON

开始编译

 make -j$(nproc)

查询是否编译成功

# 查询是否编译成功,存在表示编译成功
ls -lh bin/llama-run

存在表示成功

可以运行模型

./bin/llama-run /mnt/workspace/.cache/modelscope/models/Qwen/QwQ-32B-GGUF/qwq-32b-q4_k_m.gguf


http://www.kler.cn/a/587876.html

相关文章:

  • 强大的CSS变量
  • LiveData 与 ViewModel 协同工作:从原理到面试实战
  • dns域名双栈解析
  • 【MySQL数据库】函数
  • pycharm专业版连接远程服务器用远程conda环境run和debug
  • 如何设计高效的数据湖架构?
  • kettle ETL 配置
  • 图片标注及流程
  • 996引擎-自定义属性-方法2:setitemcustomabil
  • 基于nodejs中@langchain/langgraph框架实现workflow
  • QT中的线程同步机制
  • 视觉slam十四讲(四)——相机与图像
  • Vue3 + Vite + Yarn + Fabricjs构建的开源演示系统
  • 基于 Verilog 的时序设计:从理论到实践的深度探索
  • 蓝桥杯每日一题01背包拔高·小A点菜
  • Navicat SqlServer 设置自增主键
  • 【人工智能】大语言模型学习大纲
  • 使用 Django 的 `FileResponse` 实现文件下载与在线预览
  • 【虚幻C++笔记】枚举UENUM、结构体USTRUCT
  • 基于CPU使用paddlex OCR识别图片内容