Milvus - 标量字段索引技术解析
概述
在大规模向量相似性搜索场景中,结合标量字段和向量字段的过滤搜索需求日益增加。Milvus 2.1.0 版本引入的标量字段索引,为此类查询提供了极大的性能提升。本文将探讨 Milvus 的标量字段索引技术,包括其原理、实现方法、使用场景及性能优势。
为什么选择标量字段索引?
当在 Milvus 中进行向量相似性搜索时,可能希望通过一些标量字段(例如,数值、字符串字段)来进行筛选,以实现更精准的搜索结果。例如,在图像检索中,可以根据图片上传日期等标量字段来筛选结果。然而,标量字段过滤的效率直接影响最终查询的速度。为了解决这一瓶颈,Milvus 引入了标量字段索引,它可以有效组织标量字段的数据,并结合倒排索引、自动索引等技术,极大提升查询效率。
标量字段索引的工作原理
在接收到带有布尔表达式的搜索请求时,Milvus 会将表达式解析为抽象语法树(AST),并生成对应的物理计划。然后,Milvus 在每个数据段中执行物理计划,生成比特集作为过滤结果,再将此结果用于向量搜索参数,以缩小搜索范围。
1. 标量字段索引的分段过滤
标量字段索引的作用在于加速分段内的属性过滤过程。它以特定方式对标量字段值进行排序,使得信息检索速度大大提升。Milvus 提供了两种主要的标量字段索引算法:自动索引和反转索引。
2. 自动索引与反转索引
- 自动索引:适用于频繁检索、前缀匹配等查询。Milvus 可以基于标量字段的数据类型自动创建索引,无需手动干预。
- 反转索引:提供了手动配置的灵活性,适合更复杂的场景,如点查询、模式匹配、全文检索、布尔搜索和 JSON 查询。
自动索引的数据类型支持
数据类型 | 自动索引算法 |
---|---|
VARCHAR | 反转索引 |
INT8 | 反转索引 |
INT16 | 反转索引 |
INT32 | 反转索引 |
INT64 | 反转索引 |
FLOAT | 反转索引 |
二进制 | 反转索引 |
反转索引的优势
Milvus 中的反转索引由 Tantivy(一个高效的全文搜索引擎库)支持。Tantivy 确保了 Milvus 的反转索引在性能和速度上的优越性。反转索引由术语字典和倒排列表两部分组成,其中术语字典是按字母顺序排列的所有标记词列表,而倒排列表记录每个词所关联的文档。这样设计让反转索引在点查询和范围查询中比暴力搜索快得多。
- 点查询:通过在术语字典中查找关键字并获取相关倒排列表,避免了大量无效遍历。
- 范围查询:利用已排序的术语字典更快速地定位符合条件的内容,进一步加速检索过程。
Milvus 中标量字段索引的使用
在 Milvus 中使用标量字段索引可以显著提高带有标量字段筛选的查询性能,以下是一些常见的使用方法和参数配置。
1. 配置自动索引
Milvus 自动为支持的数据类型(如 VARCHAR
、INT
等)创建索引,无需手动干预。在执行搜索时,仅需构造包含布尔表达式的查询条件,Milvus 会自动处理索引。
# 假设我们有一个字符串和整型标量字段
search_params = {
"bool_expr": "age > 30 AND status == 'active'"
}
results = collection.search(data=query_vectors, anns_field="embedding", param=search_params, limit=top_K)
2. 手动配置反转索引
反转索引支持更灵活的查询需求,适合点查询、前缀匹配、范围查询等操作。通过反转索引可在 Milvus 中手动配置标量字段的索引。
# 使用倒排索引来支持复杂的查询场景
index_params = {
"field_name": "attribute_field",
"index_type": "INVERTED_INDEX"
}
collection.create_index(index_params=index_params)
3. 查询示例
一旦标量字段索引构建完毕,可以通过以下方式进行点查询和范围查询。
# 点查询:根据某个值精确匹配
point_query = "category == 'Electronics'"
results = collection.search(data=query_vectors, anns_field="embedding", bool_expr=point_query, limit=top_K)
# 范围查询:查找某个范围内的数据
range_query = "price > 500 AND price < 1000"
results = collection.search(data=query_vectors, anns_field="embedding", bool_expr=range_query, limit=top_K)
标量索引性能测试结果
为了验证标量字段索引的性能优势,实验对比了倒排索引和暴力搜索的性能表现。实验在包含 100 万条记录的数据集上进行测试,结果表明:
- 点查询:使用倒排索引的查询性能比暴力搜索快 30 倍。
- 范围查询:使用倒排索引在大数据集上的性能提升更加显著。
这些结果表明,倒排索引在大规模数据场景中提供了更高效的查询性能。
性能建议
使用 Milvus 标量字段索引时,可以根据数据类型和数据量,估算所需的内存大小,以更好地进行资源规划。以下为不同数据类型的内存估算公式:
数值字段
数据类型 | 内存估算函数(MB) |
---|---|
INT8 | 行数 * 12 / 1024 / 1024 |
INT16 | 行数 * 12 / 1024 / 1024 |
INT32 | 行数 * 12 / 1024 / 1024 |
INT64 | 行数 * 24 / 1024 / 1024 |
FLOAT32 | 行数 * 12 / 1024 / 1024 |
二进制 | 行数 * 24 / 1024 / 1024 |
字符串字段
字符串长度 | 内存估算函数(MB) |
---|---|
(0, 8] | 行数 * 128 / 1024 / 1024 |
(8, 16] | 行数 * 144 / 1024 / 1024 |
(16, 32] | 行数 * 160 / 1024 / 1024 |
(32, 64] | 行数 * 192 / 1024 / 1024 |
(64, 128] | 行数 * 256 / 1024 / 1024 |
(128, 65535] | 行数 * strLen * 1.5 / 1024 / 1024 |
结论
标量字段索引为 Milvus 向量相似性搜索增添了强大的筛选能力,使得在处理具有大量标量属性的数据集时,查询性能显著提升。通过选择适当的索引类型和合理的配置,您可以在搜索精度和查询效率之间找到理想的平衡点,满足复杂数据处理场景的业务需求。