当前位置：首页 > article >正文

【开源向量数据库】Milvus简介

article 2025/2/21 23:57:14

Milvus 是一个开源、高性能、可扩展的向量数据库，专门用于存储和检索高维向量数据。它支持近似最近邻搜索（ANN），适用于图像检索、自然语言处理（NLP）、推荐系统、异常检测等 AI 应用场景。

官网：https://milvus.io/

1. Milvus 的特点

（1）高性能

支持数十亿级向量数据，查询速度快。
使用 近似最近邻（ANN）索引算法，如 HNSW、IVF-FLAT、IVF-PQ、SCANN 等。

（2）分布式架构

可以横向扩展（scalability），适用于大规模数据集。
支持云端部署，可结合 Kubernetes 进行管理。

（3）多种索引支持

HNSW（Hierarchical Navigable Small World）：高效、高准确度的图索引。
IVF-FLAT（Inverted File Index + Flat Search）：适用于大规模数据检索。
IVF-PQ（Inverted File Index + Product Quantization）：节省存储，提高检索效率。

（4）多种数据类型

支持不同类型的向量（浮点数、二进制），同时可存储元数据（metadata），比如文本、标签等。
支持 JSON 存储，可以存放结构化数据。

（5）多种 API 语言支持

Python
Go
Java
C++

（6）与 AI 生态兼容

可与 PyTorch、TensorFlow、OpenAI Embeddings、Hugging Face 集成，用于 NLP、计算机视觉等任务。
支持 Kubernetes 部署，适合云原生应用。

2. Milvus 架构

Milvus 采用 分布式架构，主要组件包括：

组件	作用
Proxy	处理客户端请求，分发查询
QueryNode	负责向量搜索
IndexNode	负责构建索引
DataNode	负责存储和管理数据
MetaStore	存储元数据
Coordinator（协调器）	负责管理集群

3. 安装 Milvus

Milvus 可以使用 Docker 进行安装：

（1）Linux下的安装方法

1）安装 Docker & Docker Compose

# 安装 Docker
sudo apt update
sudo apt install -y docker.io

# 安装 Docker Compose
sudo apt install -y docker-compose

2）拉取 Milvus

git clone https://github.com/milvus-io/milvus.git
cd milvus

3）启动 Milvus

docker-compose up -d

（2）Windows 下的安装方法

在 Windows 上安装 Milvus 主要有两种方式：

使用 Docker 安装（推荐）
使用 WSL（Windows Subsystem for Linux）安装

方法 1：使用 Docker 安装 Milvus（推荐）

1.1 安装 Docker

下载并安装 Docker Desktop for Windows
启用 WSL 2 后端
- 打开 Docker Desktop 设置
- 进入 General 选项卡，勾选 Use the WSL 2 based engine
启用 Windows 容器支持（可选，但建议启用）

1.2 下载 Milvus

git clone https://github.com/milvus-io/milvus.git cd milvus

1.3 启动 Milvus

docker-compose up -d

该命令会下载 Milvus 并启动默认的服务，端口 19530 可用于 API 访问。

方法 2：使用 WSL 安装 Milvus

2.1 启用 WSL

wsl --install

确保 WSL 版本为 2：

wsl --set-default-version 2

安装 Ubuntu：

wsl --install -d Ubuntu

2.2 安装 Docker

sudo apt update // 更新软件包列表
sudo apt install -y docker.io // 安装 Docker
sudo apt install docker-compose -y // 安装 docker-compose

2.3 下载并启动 Milvus

cd ~ // 尝试在 WSL 内部的 Linux 文件系统（如 ~/）中克隆
git clone https://github.com/milvus-io/milvus.git 
cd milvus 
docker-compose up -d

4. Milvus 管理工具

3.1 Attu

Attu 是官方推荐的 Milvus 可视化管理工具：
安装 Attu

docker run -d --name attu -p 3000:3000 zilliz/attu

访问 http://localhost:3000

5. 默认接口、用户名、密码

配置项	默认值
接口	`19530`
用户名	无默认用户名
密码	无默认密码

注意：默认情况下，Milvus 没有身份验证。若需安全访问，可以通过代理层或内部网权限控制实现认证。

6. 使用 Python 操作 Milvus

安装 pymilvus

pip install pymilvus

创建 Milvus 连接

from pymilvus import connections

connections.connect(host="localhost", port="19530")

创建 Collection

from pymilvus import Collection, CollectionSchema, FieldSchema, DataType

# 定义 Collection 结构
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True),
    FieldSchema(name="vector", dtype=DataType.FLOAT_VECTOR, dim=128)
]

schema = CollectionSchema(fields, description="Example Collection")

# 创建 Collection
collection = Collection(name="example_collection", schema=schema)

插入数据

import numpy as np

# 生成 1000 个 128 维的随机向量
num_vectors = 1000
dim = 128
vectors = np.random.rand(num_vectors, dim).tolist()
ids = list(range(num_vectors))

# 插入数据
collection.insert([ids, vectors])

创建索引

index_params = {
    "metric_type": "L2",   # 余弦相似度/欧式距离
    "index_type": "IVF_FLAT",
    "params": {"nlist": 128}
}

collection.create_index(field_name="vector", index_params=index_params)

查询相似向量

# 生成查询向量
query_vector = np.random.rand(1, 128).tolist()

# 进行相似性搜索
collection.load()
result = collection.search(query_vector, "vector", param={"nprobe": 10}, limit=5)

# 打印结果
for hits in result:
    for hit in hits:
        print(f"ID: {hit.id}, Distance: {hit.distance}")

7. 使用 Java 操作 Milvus

7.1 安装 Java 依赖

在 pom.xml 添加：

<dependency>
    <groupId>io.milvus</groupId>
    <artifactId>milvus-sdk-java</artifactId>
    <version>2.3.2</version>
</dependency>

7.2 连接 Milvus

import io.milvus.client.*;
import io.milvus.param.ConnectParam;

public class MilvusExample {
    public static void main(String[] args) {
        MilvusServiceClient client = new MilvusServiceClient(
            ConnectParam.newBuilder()
            .withHost("localhost")
            .withPort(19530)
            .build()
        );
        System.out.println("Connected to Milvus");
    }
}

7.3 创建 Collection

import io.milvus.param.collection.*;
import io.milvus.grpc.DataType;
import java.util.Arrays;

public class CreateCollection {
    public static void main(String[] args) {
        MilvusServiceClient client = new MilvusServiceClient(
            ConnectParam.newBuilder().withHost("localhost").withPort(19530).build()
        );

        FieldType idField = FieldType.newBuilder()
            .withName("id").withDataType(DataType.Int64)
            .withPrimaryKey(true).build();

        FieldType vectorField = FieldType.newBuilder()
            .withName("vector").withDataType(DataType.FloatVector)
            .withDimension(128).build();

        CollectionMapping collectionMapping = CollectionMapping.newBuilder()
            .withCollectionName("example_collection")
            .withDescription("Test collection")
            .withFieldTypes(Arrays.asList(idField, vectorField))
            .build();

        client.createCollection(collectionMapping);
        System.out.println("Collection Created");
    }
}

7.4 插入数据

import io.milvus.param.dml.InsertParam;
import java.util.*;

public class InsertData {
    public static void main(String[] args) {
        MilvusServiceClient client = new MilvusServiceClient(
            ConnectParam.newBuilder().withHost("localhost").withPort(19530).build()
        );

        List<Long> ids = Arrays.asList(1L, 2L, 3L);
        List<List<Float>> vectors = new ArrayList<>();
        vectors.add(Arrays.asList(0.1f, 0.2f, 0.3f, ... 128个值));
        vectors.add(Arrays.asList(0.4f, 0.5f, 0.6f, ... 128个值));

        InsertParam insertParam = InsertParam.newBuilder()
            .withCollectionName("example_collection")
            .withFields(Arrays.asList(ids, vectors))
            .build();

        client.insert(insertParam);
        System.out.println("Data Inserted");
    }
}

7.5 查询相似向量

import io.milvus.param.dml.SearchParam;
import io.milvus.param.MetricType;

public class SearchVector {
    public static void main(String[] args) {
        MilvusServiceClient client = new MilvusServiceClient(
            ConnectParam.newBuilder().withHost("localhost").withPort(19530).build()
        );

        List<List<Float>> queryVectors = new ArrayList<>();
        queryVectors.add(Arrays.asList(0.1f, 0.2f, 0.3f, ... 128个值));

        SearchParam searchParam = SearchParam.newBuilder()
            .withCollectionName("example_collection")
            .withTopK(5)
            .withMetricType(MetricType.L2)
            .withVectors(queryVectors)
            .build();

        System.out.println(client.search(searchParam));
    }
}

8. SaaS 化系统的多租户支持

SaaS 系统中，每个租户（Tenant）应有独立的数据管理方案：

方法 1：独立 Collection

每个租户一个 Collection，例如 tenant1_vectors、tenant2_vectors
适用于小规模租户

方法 2：添加租户字段

在同一 Collection 里添加 tenant_id 字段：

{ "id": 123, "tenant_id": "tenant_A", "vector": [0.1, 0.2, ...] }

查询时加上租户过滤：

SearchParam searchParam = SearchParam.newBuilder() .withCollectionName("example_collection") .withFilter("tenant_id = 'tenant_A'") .build();

方法 3：使用多个 Milvus 实例

适用于大型 SaaS 平台
每个租户一个独立的 Milvus 集群
需要负载均衡和资源隔离

9. Milvus 的应用场景

1) 语义搜索

结合 OpenAI Embeddings，可用于语义搜索（文本相似度计算）。

2) 图像搜索

存储图片特征向量，实现以图搜图功能。

3) 推荐系统

存储用户兴趣向量，计算个性化推荐。

4) 生物信息学

DNA 比对，通过向量相似性计算基因相似度。

10. Milvus vs 其他向量数据库

数据库	主要特点	适用场景
Milvus	分布式、云原生、多索引支持	NLP、推荐系统、大规模向量数据
FAISS	高效 GPU 加速，适用于离线任务	超大规模数据离线处理
Pinecone	云托管，易用性强	SaaS 应用、无需自己部署
Weaviate	结合语义搜索，支持 JSON 存储	文本搜索、知识库
HNSWlib	高速图索引，适合小型应用	小规模向量检索