【AI】Deepseek本地部署探索,尝试联网搜索
前言
1月下旬,Deepseek-R1横空出世,其依靠堪比GPT-o1的推理能力,训练成本及使用成本均只有gpt几十分之一甚至百分之一的超高性价比,以及它足够“OPEN”的特性直接暴打人工智能的资本行业,本着求实求新的精神,本人体验了一段时间在线的Deepseek-R1,给出评价:
牛逼!说话一股人味,而不是AI味!
虽然在线模型很好用,但是架不住用的人太多(还有很多境外的网络攻击,现在已经限制仅+86手机号可注册使用,攻守异形了属于是),联网搜索总是无法使用,而且API平台也显示正在维护,所以我把目标看上了本地部署,当然现在要想部署完整版的Deepseek-R1是明显不可能的,玩玩蒸馏版本还是可以的,不过蒸馏版本并不是满血Deepseek,它实际上是由qwen2.5和llama微调剪枝训练出来的,所以体验上肯定比不上官网的Deepseek-R1,但是具体怎么样,就看部署后的测试表现了。
准备工作
- ollama,用于部署各种开源模型,并开放接口的程序
- Deepseek-R1:32B,蒸馏后的模型,这是本次的重点,按照自己的电脑硬件进行选择,这里我使用的是4090搭配64G内存进行测试,实测使用家庭服务器5600G+32G内存,纯CPU推理,7B和8B的模型都还能运行,14B甚至也能运行,只是思考时间较长,这个模型的需求是较低的,大胆尝试!
- Page Assist,一个开源的WEBUI,用于可视化的模型对话,特点是可接入联网搜索,并且很方便能配合嵌入模型。
- 个人电脑一台,有无显卡不影响,有显卡会跑在显卡上,没显卡会跑在CPU上,尽可能把内存搞大点就行,然后我这里的系统使用的是Windows11作为示例。
流程
-
上ollama官网下载ollama程序,并安装,下载速度较慢的话可以尝试使用迅雷下载,下载人很多用迅雷下载的会很快,有IDM也可以用IDM,傻瓜式安装一直下一步就行。
-
进入Deepseek-R1模型网页,复制安装指令
ollama run deepseek-r1:32
(这里按照你自己的模型复制) -
管理员运行CMD,把复制好的指令贴进去,回车,程序会自动下载和安装运行,纯傻瓜式!这里要注意一点,这是纯傻瓜式操作,这样的好处就是可以啥都不用想,适合小白想体验的,C盘容量足够大的,如果不是,那就要修改一下模型的保存地址,去系统环境变量添加一个变量(不会的话可以搜索一下,或者直接问deepseek网页版),如果已经下载了模型,到默认地址,那默认地址一般就是
C:\Users\%username%\.ollama\models
,无论是想删除还是想移动都是在这里找。 -
下载的时候一般能跑满,但是在快接近完全下载完的时候会降速,所以请耐心等待。
-
在下载的时候可以去准备浏览器插件,打开插件链接,是Github的链接,如果打不开就想办法改一下DNS,国内只要DNS能解析就能访问,有科学的可以直接安装,没有科学的就从Releases里下载好后手动安装,不会的话就问Deepseek。
-
等待模型安装好了,就可以直接在终端(黑框框)里直接进行对话了,4090运行32B模型推理生成速度很快,这里问了一个电车难题的问题,回复的很快,和在官网上使用的速度基本一致,服务器上纯CPU可能就没这么快了,主要是think花很多时间
-
接入Page Assist,在浏览器的插件中打开,如果没做任何的额外设置,ollama使用的是默认端口,那么现在应该可以直接使用了!这里我们尝试勾选上联网搜索,看看实力。
-
能力还有待进步,毕竟不是满血的,是由Qwen2.5蒸馏而来,但是已经完全够用了。
可能的问题
- 在联网对话的时候,弹出403代码,无法访问网络,需要在环境变量中添加系统变量,框选部分填自己插件的访问头,我这里是edge浏览器,如果用的是firefox或者chorm都是不一样的,需要自己去看一下/。
- 添加嵌入模型,
ollama pull nomic-embed-text
,然后在插件里RAG设置中选择嵌入模型即可。 - 还有其他问题欢迎留言或私信讨论,准备再研究一下ollama配合cline进行代码生成