4060ti-16G显卡部署deepseek-32B(支持联网搜索)
4060ti-16G显卡部署deepseek-32B
- 前言
- 部署deepseek
- 运行命令
- ollama 显卡占用
- 测试模型速度
- 模型简单测试
- 客户端
- Chatbox AI
- Open WebUI
- page assist
- 总结
前言
deepseek年前狠狠的火了一把,笔者电脑是48G内存+4060ti 16G显卡,试试32b的参数效果咋样。按照ollama的官网提示,32b参数的所占空间是20G,可以使用GPU+CPU的方式运行(Ollama默认支持)
部署deepseek
运行命令
ollama run deepseek-r1:32b
ollama 显卡占用
查看ollama 内存占用比例,GPU占用70%左右
ollama ps
测试模型速度
查看模型token生成速度 :加个参数–verbose
ollama run --verbose deepseek-r1:32b
4060ti 16G 生成的token还是挺慢的,只有6t/s
占用GPU内存不是很大,GPU问题也不高,运行还可以。
模型简单测试
可以拿以下两个数学题考验下
a^8 =4^a 求a (结果为16)
结果是错的,满血版本的回答是对。
判断1117117是否为素数 (是)
结果正确(小于32b就回答错误了)
客户端
要支持deepseek联网功能,需要下载客户端
Chatbox AI
Chatbox AI 是一款 AI 客户端应用和智能助手,支持众多先进的 AI 模型和 API,可在 Windows、MacOS、Android、iOS、Linux 和网页版上使用。
官网下载windows版本后直接打开,配置选择OLLAMA API 接口
联网功能:
实际上本地的大模型是无法使用联网,搜索的数据是第一部的(当前是2025-3-9,票房是146.5亿)。
后面版本升级后,联网功能已经可以完全正常使用了,看起来还是非常强大的。
Open WebUI
docker安装可以参考上一篇文章,此次使用了python安装
(后面发现使用python安装时间很长,花了四五十分钟,推荐docker安装)
按照上面的启动安装后如下图就是代表启动成功了
启动页面
open webui使用联网需要自己提供api,无法免费使用联网功能
page assist
Page Assist 是一个开源浏览器插件,同时提供侧边栏和网页界面,主要用于与本地 AI 模型进行交互。安装非常的简单、简洁。非常适合想要及时体验大模型的人员。在Google应用商店可以安装(需要绿色上网)
打开后可以设置选择模型
设置联网搜索引擎
非常简单的对话框,联网查询
模型生成的速度,这个插件比较好的就是可以及时看到大模型的生成速度
总结
量化后的32b模型,整体体验上还是不错的,回答的也还可以,不过速度的话确实是慢一点了,一道问题加上推理要两三分钟,使用14B的话速度会更快一点,但是效果会比较差点。可以回答一些简单的问题,也可以尝试使用联网搜索帮你总结。但还是远远不能跟满血版的比较。客户端的话,个人使用的话推荐使用Chatbox AI、以及page assist。Open WebUI实在是太大太臃肿了,不过好在于功能强大,更适合企业去定制化做拓展。当然48+16的配置也可以上72b参数的模型,但是速度会非常的慢,只有0点几的token,就没必要体验了。