Ubuntu20.04 本地部署 DeepSeek-R1
一、下载ollama
打开 ollama链接,直接终端运行提供的命令即可。如获取的命令如下:
curl -fsSL https://ollama.com/install.sh | sh
确保是否安装成功可在终端输入如下命令:
ollama -v
注意: 如遇到Failed to connect to github.com port 443: Connection timed out
,一种简便方法是:改host sudo vim /etc/hosts
,添加内容如下:
140.82.112.3 github.com
199.232.5.194 github.global.ssl.fastly.net
54.231.114.219 github-cloud.s3.amazonaws.com
其中,ipaddress 可获取目前github.com实际ip
二、下载模型
在 ollama_search 中查询所需的模型,这里需要下载DeepSeeK-R1模型,所以在搜索框中输入“deepseek-r1”。
打开第一个链接,在左侧标有7b的选项为模型的版本,数字越大模型越大效果更好,但对应所需要的计算机的性能更强,具体参数可以对应下方表格。因为自己显存较低,所以使用1.5b,大家可以根据自己电脑配置选择。
模型版本 | 参数量 | 内存需求(RAM) | 显存需求(训练) | 显存需求(推理) | 推荐GPU配置 | 典型应用场景 | 注意事项 |
---|---|---|---|---|---|---|---|
1.5B | 1.5B | 4-8GB | 6-8GB | 3-4GB | 单卡RTX 3090/4090 | 移动端应用、嵌入式设备、简单对话 | 支持低精度量化(4bit/8bit) |
7B | 7B | 16-32GB | 24-32GB | 12-16GB | 单卡A100 40GB | 通用对话、文本生成 | 需启用激活检查点节省显存 |
8B | 8B | 20-40GB | 28-36GB | 14-18GB | 单卡A100 40GB | 多语言处理、中等复杂度推理 | 推荐使用FlashAttention优化 |
14B | 14B | 32-64GB | 48-64GB | 24-32GB | 2*A100 40GB(张量并行) | 复杂对话、知识问答 | 需张量并行策略 |
32B | 32B | 64-128GB | 80-120GB | 40-60GB | 4*A100 80GB(流水线并行) | 专业领域分析、长文本生成 | 推荐使用ZeRO-3优化 |
70B | 70B | 128-256GB | 160-240GB | 80-120GB | 8*A100 80GB(混合并行) | 复杂代码生成、学术研究 | 需组合张量+流水线+数据并行 |
671B | 671B | 1TB+ | 1.5-2TB | 800GB-1.2TB | 64*A100/H100(多节点分布式) | 超大规模预训练、战略级AI系统 | 需定制化分布式框架支持 |
在左侧选好版本后,右侧即会显示一条命令,将该命令输入在命令框中即可,因为选择下载1.5b,则命令为:
ollama run deepseek-r1:1.5b
指令执行完后即可使用该模型:
如果需要关闭模型即可使用
Ctrl + d
或键盘输入/bye
即可,如需再次启动,那么在命令行中输入ollama run deepseek-r1:1.5b
即可。