当前位置：首页 > article >正文

使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

article 2025/2/24 10:33:34

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速度是cpu的近8倍.

测试环境: ubuntu22.04 x86+llama.cpp

cpu intel 10750h 4.41 tokens / s

model	size	params	backend	threads	test	t/s
qwen2 7B Q5_K - Medium	5.07 GiB	7.62 B	CPU	6	pp512	15.70 ± 0.40
qwen2 7B Q5_K - Medium	5.07 GiB	7.62 B	CPU	6	tg128	4.41 ± 0.03

使用-t 12扩展到12线程，速度也没有明显变化.

gpu nvidia 1660, 生成速度36 tokens / s.

model	size	params	backend	ngl	test	t/s
qwen2 7B Q5_K - Medium	5.07 GiB	7.62 B	CUDA	30	pp512	164.55 ± 0.03
qwen2 7B Q5_K - Medium	5.07 GiB	7.62 B	CUDA	30	tg128	36.38 ± 0.02

http://www.kler.cn/a/547643.html

相关文章：

【日常经验】五种密码加密方式比较

基于Qt 和微信小程序的用户管理系统：WebSocket + SQLite 实现注册与登录

JVM 底层探秘：对象创建的详细流程、内存分配机制解析以及线程安全保障策略

Agent快速构建框架的langGraph到底是什么及案例

Android Studio：EditText常见4种监听方式

鸿蒙Harmony通过命令行生成doc

C# windowForms 的DataGridView控件的使用

【鸿蒙在OpenHarmony系统上集成OpenCV，实现图片裁剪】

蓝耘云智算|使用 Deepseek R1 模型优化 BERT 在 NLP 任务中的表现

DeepSeek HuggingFace 70B Llama 版本（DeepSeek-R1-Distill-Llama-70B）

P5693 EI 的第六分块 Solution

SpringBoot Configuration Annotation Processor not configured 解决方案和详细问题分析以及作用

STM32——HAL库开发笔记16（SPI外部flash实验2）（参考来源：b站铁头山羊）

论文解读之GPT1：Improving Language Understanding by Generative Pre-Training

Unity 命令行设置运行在指定的显卡上

基于大数据的电动汽车销售数据分析系统的设计与实现

FFmpeg+SDL实现简易视频播放器

DeepSeek帮助解决Oracle死锁问题

Spark 和 Flink

win11系统 Docker Desktop提示Docker Engine stopped解决全过程记录