当前位置：首页 > article >正文

低成本+高性能+超灵活！Deepseek 671B+Milvus重新定义知识库搭建

article 2025/2/11 15:38:41

“老板说，这个项目得上Deepseek,还得再做个知识库...”

还有哪个开发者，最近没听到这样的抱怨？

Deepseek爆火，推理端的智能提速，算力成本急剧下降，让不少原本不想用大模型，用不起大模型的企业，一夕之间全部拥抱AI，开启了降本增效。在这个过程中，对于大部分拥有优质私有数据，敏感数据的企业来说，如果不想数据泄露，那么部署本地知识库，就成了拥抱大模型的必经之路。

可是当你真正开始调研的时候，就会发现这事儿没那么简单：

想用开源的蒸馏版模型？效果差强人意，连基本的问答准确度都难以保证。

比如，前不久，我们推出了基于Deepseek 7b+Milvus的本地部署教程，就有不少开发者反应，7B版本，即使加上了向量数据库，也依然效果差强人意。

可是上满血版的大模型？满血的R1，参数有671B，即使已经是FP16精度，需要的显存也高达1342GB，换算成80G的A100，也需要足足17张。而个人电脑，即使采用顶配的24GB的4090，需要的数量也足足高达56张（MoE+量化会降低实际显存需求）……

很显然，别说个人，就是一些中小企业，也没这么多显卡。

那就用开源方案搭建？光是配置环境就够喝一壶的：向量库选型、模型部署、前端界面...每一步都像是在考验你的耐心。

难道就没有一个简单可行的方案吗？

被老板抓着加班部署了一个月后，相信我，Deepseek+Milvus+AnythingLLM，绝对是你部署本地知识库的最优解！

这个方案不仅解决了性能问题，更重要的是，它真的做到了"零门槛"，只需要30分钟，就能搭建一个具备企业级性能的私有知识库。而且，整个过程真的像搭积木一样简单，小白也能快速上手。

01 选型思路

首先我们来看一下，这次选型，为什么采用Deepseek+Milvus+AnythingLLM这个组合，它主要解决了目前RAG落地的三大痛点:

1.1 模型性能问题

用过ollama提供的蒸馏版Deepseek的朋友，应该都有同感，虽然也是Deepseek，但效果实在不怎么聪明。总结来说，就是7B太智障，671B用不起。

所以，在这里，我们推荐使用硅基流动以及一些云服务企业的API服务，通过API调用的方式,我们可以用很低的成本获得满血版Deepseek的算力支持。而且，最近一段时间，新注册用户还有免费的额度尝鲜。

1.2 部署难度问题

市面上开源的RAG方案不少,但要么需要复杂的环境配置,要么需要大量的运维工作。而AnythingLLM则提供完整的UI界面，天然的支持向量数据库Milvus以及各种类型的大模型接口,降低了入门用户的使用门槛。

而Milvus在召回效率、支持的数量规模等方面，也是业内毋庸置疑的第一梯队，与此同时，Milvus也是目前github上向量数据库方向，star数量最多的开源产品，属于大部分AI开发者的入门基础课程。

1.3 扩展性问题

这个组合最大的亮点在于它的灵活性。可以轻松切换不同的大语言模型，Milvus支持亿级数据的高性能检索，AnythingLLM的插件机制让功能扩展变得简单。

总的来说,这个组合方案既保证了效果,又降低了使用门槛,还具备良好的扩展性。对于想要快速搭建私有知识库的个人来说,是一个非常理想的选择。

02 实战：搭建本地RAG

环境配置要求说明：

本文环境均以MacOS为例，Linux和Windows用户可以参考对应平台的部署文档。

docker和ollama安装不在本文中展开。

本地部署配置：最低CPU:4核、内存8G，建议 CPU:8核、内存16G

（1）Milvus部署

官网：https://milvus.io

1.1下载Milvus部署文件

bash-3.2$ wget https://github.com/milvus-io/milvus/releases/download/v2.5.4/milvus-standalone-docker-compose.yml -O docker-compose.yml

1.2修改配置文件

说明：anythingllm对接milvus时需要提供milvus账号密码，因此需要修改docker-compose.yml文件中的username和password字段。

version: '3.5'
services:
  etcd:
    container_name: milvus-etcd
    image: registry.cn-hangzhou.aliyuncs.com/xy-zy/etcd:v3.5.5
    environment:
      - ETCD_AUTO_COMPACTION_MODE=revision
      - ETCD_AUTO_COMPACTION_RETENTION=1000
      - ETCD_QUOTA_BACKEND_BYTES=4294967296
      - ETCD_SNAPSHOT_COUNT=50000
    volumes:
      - ${DOCKER_VOLUME_DIRECTORY:-.}/volumes/etcd:/etcd
    command: etcd -advertise-client-urls=http://127.0.0.1:2379 -listen-client-urls http://0.0.0.0:2379 --data-dir /etcd
    healthcheck:
      test: ["CMD", "etcdctl", "endpoint", "health"]
      interval: 30s
      timeout: 20s
      retries: 3
  minio:
    container_name: milvus-minio
    image: registry.cn-hangzhou.aliyuncs.com/xy-zy/minio:RELEASE.2023-03-20T20-16-18Z
    environment:
      MINIO_ACCESS_KEY: minioadmin
      MINIO_SECRET_KEY: minioadmin
    ports:
      - "9001:9001"
      - "9000:9000"
    volumes:
      - ${DOCKER_VOLUME_DIRECTORY:-.}/volumes/minio:/minio_data
    command: minio server /minio_data --console-address ":9001"
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:9000/minio/health/live"]
      interval: 30s
      timeout: 20s
      retries: 3
  standalone:
    container_name: milvus-standalone
    image: registry.cn-hangzhou.aliyuncs.com/xy-zy/milvus:v2.5.4
    command: ["milvus", "run", "standalone"]
    security_opt:
    - seccomp:unconfined
    environment:
      ETCD_ENDPOINTS: etcd:2379
      MINIO_ADDRESS: minio:9000
      COMMON_USER: milvus
      COMMON_PASSWORD: milvus
    volumes:
      - ${DOCKER_VOLUME_DIRECTORY:-.}/volumes/milvus:/var/lib/milvus
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:9091/healthz"]
      interval: 30s
      start_period: 90s
      timeout: 20s
      retries: 3
    ports:
      - "19530:19530"
      - "9091:9091"
    depends_on:
      - "etcd"
      - "minio"
networks:
  default:
    name: milvus