当前位置: 首页 > article >正文

使用开源Embedding模型嵌入高维空间向量

发现问题

今天在学AI的时候发现一个问题:我想将分割后的文档嵌入到Qdrant数据库中,并用moonshot访问。但是我发现moonshot模型不适合生成嵌入,也就是说,没有通常意义下的embeddings方法。


探索过程

这个问题困扰了我好长时间,一直在搜资料怎样让moonshot可以生成嵌入,最终也没找到方法…

不过过程中ai还是给出了一个可行的解决方法

AI:可以使用OpenAI的嵌入模型

我:???

我肯定知道OpenAI的模型能用啊…

这里还是贴一下OpenAI使用的代码吧,有条件的可以使用这个:

需要再安装一个库

pip install qdrant-client
#将分割嵌入并存储在矢量数据库Qdrant中
from langchain.vectorstores import Qdrant
from langchain.embeddings import OpenAIEmbeddings
vectorstore = Qdrant.from_documents(
    documents=chunked_documents, # 以分块的文档
    embedding=OpenAIEmbeddings(), # 用OpenAI的Embedding Model做嵌入
    location=":memory:",  # in-memory 存储
    collection_name="my_documents",) # 指定collection_name

需要提前配置好OpenAI的key


进一步探索

其实上面的回答并不能解决实际问题,毕竟,要是能用OpenAI的模型也就不会去专门搞国内的大模型了~

那么,看看其他模型是怎么解决的!

from langchain_community.vectorstores import Qdrant
from volcenginesdkarkruntime import Ark
from langchain.pydantic_v1 import BaseModel
from typing import Dict, List, Any
from langchain.embeddings.base import Embeddings

# 火山模型
class DoubaoEmbeddings(BaseModel, Embeddings):
    client: Ark = None
    api_key: str = ""
    model: str

    def __init__(self, **data: Any):
        super().__init__(**data)
        if self.api_key == "":
            self.api_key = os.environ["OPENAI_API_KEY"]
        self.client = Ark(
            base_url=os.environ["OPENAI_BASE_URL"],
            api_key=self.api_key
        )

    def embed_query(self, text: str) -> List[float]:
        embeddings = self.client.embeddings.create(model=self.model, input=text)
        return embeddings.data[0].embedding
        
    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        return [self.embed_query(text) for text in texts]

    class Config:
        arbitrary_types_allowed = True


vectorstore = Qdrant.from_documents(
    documents=chunked_documents,  # 以分块的文档
    embedding=DoubaoEmbeddings(
        model=os.environ["EMBEDDING_MODELEND"],
    ),  # 用OpenAI的Embedding Model做嵌入
    location=":memory:",  # in-memory 存储
    collection_name="my_documents",
)  # 指定collection_name

诶! 我有个主意

我们把里面的换成moonshot的不就行了?

答案是:不行!

会报如下错:

    raise AttributeError(f'{type(self).__name__!r} object has no attribute {item!r}')
AttributeError: 'Moonshot' object has no attribute 'embeddings'

也是,拿过来改改就能用也太不合理了


最终探索

到了这步有点进行不下去了,突然想到一个问题:

嵌入模型必须和语言模型一致才能使用吗?

诶,还真不是!

Embedding模型在NLP中只负责将词汇映射为高维空间向量,与后续的语言模型并不需要使用统一个。

那现在问题就很简单了,有没有什么开源的Embedding模型呢?

Sentence Transformers (Sentence-BERT):这是一个基于 BERT 的嵌入模型,可以生成高质量的句子嵌入。


上手!

先下载一下对应的库

pip install transformers

接下来就是见证奇迹的时刻

class SentenceBERTEmbeddings:
    def __init__(self, model_name='all-MiniLM-L6-v2'):
        self.model = SentenceTransformer(model_name)

    def embed_query(self, text: str) -> List[float]:
        return self.model.encode(text).tolist()

    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        return [self.embed_query(text) for text in texts]

    def __call__(self, text: str) -> List[float]:
        return self.embed_query(text)

    class Config:
        arbitrary_types_allowed = True


vectorstore = Qdrant.from_documents(
    documents=chunked_documents, # 以分块的文档
    embedding=SentenceBERTEmbeddings(), # 用OpenAI的Embedding Model做嵌入
    location=":memory:",  # in-memory 存储
    collection_name="my_documents",) # 指定collection_name

在这里插入图片描述
搞定!

项目完整代码

最后附上项目的完整代码,大家可以参考一下

init包在上一期文章里

import os
from langchain_community.llms.moonshot import Moonshot
import init

# 1.Load 导入Document Loaders
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.document_loaders import Docx2txtLoader
from langchain_community.document_loaders import TextLoader

# 加载Documents
base_dir = 'flowers' # 文档的存放目录
documents = []
for file in os.listdir(base_dir): 
    # 构建完整的文件路径
    file_path = os.path.join(base_dir, file)
    if file.endswith('.pdf'):
        loader = PyPDFLoader(file_path)
        documents.extend(loader.load())
    elif file.endswith('.docx'): 
        loader = Docx2txtLoader(file_path)
        documents.extend(loader.load())
    elif file.endswith('.txt'):
        loader = TextLoader(file_path)
        documents.extend(loader.load())
# 2.Split 将Documents切分成块以便后续进行嵌入和向量存储
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=10)
chunked_documents = text_splitter.split_documents(documents)

# 3.Store 将分割嵌入并存储在矢量数据库Qdrant中
from langchain_community.vectorstores import Qdrant
from typing import Dict, List, Any

from sentence_transformers import SentenceTransformer

# 定义 Sentence-BERT 嵌入模型
class SentenceBERTEmbeddings:
    def __init__(self, model_name='all-MiniLM-L6-v2'):
        self.model = SentenceTransformer(model_name)

    def embed_query(self, text: str) -> List[float]:
        return self.model.encode(text).tolist()

    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        return [self.embed_query(text) for text in texts]

    def __call__(self, text: str) -> List[float]:
        return self.embed_query(text)

    class Config:
        arbitrary_types_allowed = True


vectorstore = Qdrant.from_documents(
    documents=chunked_documents, # 以分块的文档
    embedding=SentenceBERTEmbeddings(), # 用OpenAI的Embedding Model做嵌入
    location=":memory:",  # in-memory 存储
    collection_name="my_documents",) # 指定collection_name

# 4. Retrieval 准备模型和Retrieval链
import logging # 导入Logging工具
from langchain.retrievers.multi_query import (
    MultiQueryRetriever,
)  # MultiQueryRetriever工具
from langchain.chains import RetrievalQA  # RetrievalQA链

# 设置Logging
logging.basicConfig()
logging.getLogger('langchain.retrievers.multi_query').setLevel(logging.INFO)

# 实例化一个大模型工具
# 不要指定max_token 并将 temperature 置为 0
llm = Moonshot(
    model=init.model,
    temperature=0,
)

# 实例化一个MultiQueryRetriever
retriever_from_llm = MultiQueryRetriever.from_llm(retriever=vectorstore.as_retriever(), llm=llm)

# 实例化一个RetrievalQA链
qa_chain = RetrievalQA.from_chain_type(llm,retriever=retriever_from_llm)

# 5. Output 问答系统的UI实现
from flask import Flask, request, render_template
app = Flask(__name__) # Flask APP

@app.route('/', methods=['GET', 'POST'])
def home():
    if request.method == 'POST':

        # 接收用户输入作为问题
        question = request.form.get('question')        
        
        # RetrievalQA链 - 读入问题,生成答案
        result = qa_chain({"query": question})
        
        # 把大模型的回答结果返回网页进行渲染
        return render_template('index.html', result=result)
    
    return render_template('index.html')

if __name__ == "__main__":
    app.run(host='0.0.0.0',debug=True,port=5000)

http://www.kler.cn/a/386593.html

相关文章:

  • 【博客之星2024】技术创作与成长的全景回顾与突破 —— “千里之行,始于足下“
  • 【环境搭建】Metersphere v2.x 容器部署教程踩坑总结
  • 工业网口相机:如何通过调整网口参数设置,优化图像传输和网络性能,达到最大帧率
  • 鸿蒙开发中的骨架图:提升用户体验的关键一环
  • PHP:从入门到进阶的全方位指南
  • 基于微信小程序的安心陪诊管理系统
  • 设计模式之——单例模式
  • Golang--网络编程
  • 【专题】2024年全球生物医药交易报告汇总PDF洞察(附原数据表)
  • quartz
  • 【计网不挂科】计算机网络期末考试——【选择题&填空题&判断题&简述题】题库(4)
  • ReactNative中实现图片保存到手机相册
  • 3.PyCharm工具
  • virtualBox部署minikube+istio
  • Java项目实战II基于Java+Spring Boot+MySQL的高校办公室行政事务管理系统(源码+数据库+文档)
  • 速盾:vue的cdn是干嘛的?
  • Rust-AOP编程实战
  • vue2 -- el-form组件动态增减表单项及表单项验证
  • 关于我重生到21世纪学C语言这件事——三子棋游戏!
  • Java打造智能语音陪聊软件?提升用户体验的新路径
  • 【数据集】【YOLO】【目标检测】树木倒塌识别数据集 9957 张,YOLO道路树木断裂识别算法实战训练教程!
  • 让AI帮我用java实现EasyExel读取图片—支持WPS嵌入图片
  • python externally-managed-environment 外部管理环境
  • Kotlin 协程使用及其详解
  • 【go从零单排】结构嵌套struct embedding
  • C# 独立线程