当前位置: 首页 > article >正文

使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速度是cpu的近8倍.

测试环境: ubuntu22.04 x86+llama.cpp

cpu intel 10750h 4.41 tokens / s

model

size

params

backend

threads

test

t/s

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CPU

6

pp512

15.70 ± 0.40

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CPU

6

tg128

4.41 ± 0.03

 使用-t 12扩展到12线程,速度也没有明显变化.

gpu nvidia 1660, 生成速度36 tokens / s.

model

size

params

backend

ngl

test

t/s

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CUDA

30

pp512

164.55 ± 0.03

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CUDA

30

tg128

36.38 ± 0.02


http://www.kler.cn/a/547643.html

相关文章:

  • 【日常经验】五种密码加密方式比较
  • 基于Qt 和微信小程序的用户管理系统:WebSocket + SQLite 实现注册与登录
  • JVM 底层探秘:对象创建的详细流程、内存分配机制解析以及线程安全保障策略
  • Agent快速构建框架的langGraph到底是什么及案例
  • Android Studio:EditText常见4种监听方式
  • 鸿蒙Harmony通过命令行生成doc
  • C# windowForms 的DataGridView控件的使用
  • 【鸿蒙在OpenHarmony系统上集成OpenCV,实现图片裁剪】
  • 蓝耘云智算|使用 Deepseek R1 模型优化 BERT 在 NLP 任务中的表现
  • DeepSeek HuggingFace 70B Llama 版本 (DeepSeek-R1-Distill-Llama-70B)
  • P5693 EI 的第六分块 Solution
  • SpringBoot Configuration Annotation Processor not configured 解决方案和详细问题分析以及作用
  • STM32——HAL库开发笔记16(SPI外部flash实验2)(参考来源:b站铁头山羊)
  • 论文解读之GPT1:Improving Language Understanding by Generative Pre-Training
  • Unity 命令行设置运行在指定的显卡上
  • 基于大数据的电动汽车销售数据分析系统的设计与实现
  • FFmpeg+SDL实现简易视频播放器
  • DeepSeek帮助解决Oracle死锁问题
  • Spark 和 Flink
  • win11系统 Docker Desktop提示Docker Engine stopped解决全过程记录