当前位置：首页 > article >正文

[使用ElasticsearchEmbeddingsCache实现高效存储和检索：完整指南]

article 2025/2/22 17:08:18

# 使用ElasticsearchEmbeddingsCache实现高效存储和检索：完整指南

在这篇文章中，我们将深入探讨如何使用`ElasticsearchEmbeddingsCache`来实现高效的存储和检索。这一工具特别适合需要使用Elasticsearch存储嵌入向量的场景，如语言模型应用。

## 引言

`ElasticsearchEmbeddingsCache`是一个`ByteStore`实现，它利用您的Elasticsearch实例来优化嵌入的存储和检索。本文旨在帮助您理解其基本概念和使用方法。

## 主要内容

### 环境设置

要使用`ElasticsearchEmbeddingsCache`，首先您需要一个Elasticsearch集群。您可以选择在本地搭建或者注册一个Elastic账户。

#### 安装

首先，安装`langchain_elasticsearch`包：

```bash
%pip install -qU langchain_elasticsearch

实例化

以下是一个通过Elasticsearch实例化字节存储的示例：

from langchain_elasticsearch import ElasticsearchEmbeddingsCache

# 使用API代理服务提高访问稳定性
kv_store = ElasticsearchEmbeddingsCache(
    es_url="https://localhost:9200",
    index_name="llm-chat-cache",
    metadata={"project": "my_chatgpt_project"},
    namespace="my_chatgpt_project",
    es_user="elastic",
    es_password="<GENERATED PASSWORD>",
    es_params={
        "ca_certs": "~/http_ca.crt",
    },
)

使用示例

您可以通过mset和mget方法来存储和检索数据：

kv_store.mset(
    [
        ["key1", b"value1"],
        ["key2", b"value2"],
    ]
)

print(kv_store.mget(["key1", "key2"]))
# 输出: [b'value1', b'value2']

删除数据使用mdelete方法：

kv_store.mdelete(["key1", "key2"])
print(kv_store.mget(["key1", "key2"]))
# 输出: [None, None]

嵌入缓存

为了允许对缓存向量进行搜索，可以通过子类化和重写方法来实现：

from typing import Any, Dict, List

class SearchableElasticsearchStore(ElasticsearchEmbeddingsCache):
    @property
    def mapping(self) -> Dict[str, Any]:
        mapping = super().mapping
        mapping["mappings"]["properties"]["vector"] = {
            "type": "dense_vector",
            "dims": 1536,
            "index": True,
            "similarity": "dot_product",
        }
        return mapping

    def build_document(self, llm_input: str, vector: List[float]) -> Dict[str, Any]:
        body = super().build_document(llm_input, vector)
        body["vector"] = vector
        return body