当前位置：首页 > article >正文

基于LangChain的Embedding开发手册（保姆级）

article 2024/11/14 16:28:18

前言

时至今日，经过2年的“攻城拔寨”，大模型显然吹进了“寻常百姓家”。如果你还不了解ChatGPT，不了解通义、文心、混元等国内任意一款大模型产品，那么请来博主这里坐坐，我们“边看边聊”。

在这里插入图片描述

随着ChatGPT的问世，仿佛一夜间，把AI的门槛从金字塔顶端拉至了腰身，甚至脚跟处，神不神奇？当然神奇，这个领域曾经是机器学习擅长的圈子，除非你具备相当的基础、甚至专业能力，否则可以说“与你无关”。

如今呢，AIGC遍天下，工具化浪潮代替了原始的生产方式，你不需要懂数学、懂计算机，什么算法、数据都可以抛在脑后。你要做的只需要“懂”它即可。唯有懂它，才能很好的利用它，也就是AI工具的使命和价值。

今天博主带各位，先了解一下如何让大模型“懂”你吧。刚才讲是你要懂它，现在反过来它要懂你，这是为什么？因为大模型具备一定的“类人思维”，所以懂你是前提。

Q1：什么是RAG

如何理解懂你这件事呢？这可不像爱一个人，随着时间进程，彼此间会自然发生。大模型可以说是一块“木头”，需要你告诉它才行。比如你想查个什么东东，让它按照你的意志进行回答问题，怎么办？这就不得不提RAG了。

不熟悉机器学习的同学，可能不了解RAG。但是熟悉的同学，一定知道它的作用。以下是博主从百度百科摘录的介绍，可窥一二：

检索增强生成（Retrieval-augmented Generation），简称RAG，是当下热门的大模型前沿技术之一。检索增强生成模型结合了语言模型和信息检索技术。具体来说，当模型需要生成文本或者回答问题时，它会先从一个庞大的文档集合中检索出相关的信息，然后利用这些检索到的信息来指导文本的生成，从而提高预测的质量和准确性。——百度百科

怎么理解它？来看看下面这张图，也许有些帮助：

在这里插入图片描述

一句话总结：用户的问题结合RAG后，把检索结果再次输入到大模型，生成新的结果。
如果觉得难以理解，可以参考下面简化后的流程：

在这里插入图片描述
总之，就是讲了一件事，在让大模型懂你前，必须“喂饱”它。然后让它有意识的懂你并按你的意志运转。通过RAG的过程，博主梳理几个关键词：

序号	名称	作用
1	question	用户的问题
2	textsplit	文本分段，为下一步embedding做准备
3	embedding	文本嵌入，机器学习领域文本向量化的关键步骤
4	retrieval	文本检索，结合用户问题和embedding数据检索
5	document	检索结果，一个标准化的文档对象

其中，embedding是关键的一环。

Q2：如何完成Embedding（嵌入）

通俗的讲，embedding就是把你的数据转换成机器可识别的格式。在机器学习领域，通常以向量的形式存储数据，一是为了方便检索，二是为了提高检索质量。当然embedding可通过多种方式完成，博主选择基于langchain完成以下实践。

提示：在正式完成以下操作前，需安装langchain、langchain-core、langchain-community、langchain-text-splitters、langchain-chroma、chroma、pypdf、dashscope

1. 文档加载

首先需要把文档转换为符合嵌入的标准文档，即Document。

1.1 load pdf

使用PyPDFLoader工具完成：

# 加载PDF文件
from langchain_community.document_loaders import PyPDFLoader
directory_path = "/pdf"
mydata = []
for filename in os.listdir(directory_path):
    # 检查文档格式
    if filename.endswith(".pdf"):
        loader = PyPDFLoader(directory_path+'\\'+filename)
        mydata.append(loader.load_and_split())

1.2 load txt/html

使用UnstructuredHTMLLoader工具完成：

from langchain_community.document_loaders import UnstructuredHTMLLoader
# 加载html文件为document
file_path = "/html"
loader = UnstructuredHTMLLoader(file_path)
mydata = loader.load()

1.3 load word

使用UnstructuredWordDocumentLoader工具完成：

from langchain_community.document_loaders import UnstructuredWordDocumentLoader
# 加载docx/doc文件为document
directory_path = "/word"
mydata = []
for filename in os.listdir(directory_path):
    # 检查所有doc以及docx后缀的文件
    if filename.endswith(".doc") or filename.endswith(".docx"):
        loader = UnstructuredWordDocumentLoader(directory_path+'\\'+filename, mode="elements", strategy="fast")
        mydata.append(loader.load())

2. 文档切割

你可以把第1步加载后的document按一定的chunk切分为一份一份小文档：

from langchain_text_splitters import CharacterTextSplitter
# 创建分割器
text_splitter = CharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=0
)
# 加载文档
docs = []
for document in mydata:
    doc = text_splitter.split_documents(document)
    docs.append(doc)

其中chunk_size是每块文本（即chunk）有序切割的最大长度；chunk_overlap是相邻chunk重叠的token数量。

3. 嵌入模型

嵌入模型实际上是将分割后的文档（chunk）转换为向量的工具。比如阿里的text-embedding-v1或者hugeface的all-MiniLM-L6-v2等。这里以阿里的模型为例，结合langchain可以这样定义一个嵌入模型：

from langchain_community.embeddings import DashScopeEmbeddings
embedding = DashScopeEmbeddings(
    model="text-embedding-v1",
    dashscope_api_key='阿里dashscope api key'
)

4. 向量存储

完成前3步，最后一步就是存储了。怎么存？向量喽~

from langchain_community.vectorstores import Chroma
vector_dir = '/db'
vectordb = Chroma.from_documents(
    documents=docs,
    embedding=embedding,
    persist_directory=vector_dir 
)
# 持久化，支持迁移
vectordb.persist()