当前位置：首页 > article >正文

《使用 LangChain 进行大模型应用开发》学习笔记（三）

article 2025/2/21 3:32:07

前言

本文是 Harrison Chase （LangChain 创建者）和吴恩达（Andrew Ng）的视频课程《LangChain for LLM Application Development》（使用 LangChain 进行大模型应用开发）的学习笔记。由于原课程为全英文视频课程，国内访问较慢，同时我整理和替换了部分内容以便于国内学习。阅读本文可快速学习课程内容。

课程介绍

本课程介绍了强大且易于扩展的 LangChain 框架，LangChain 框架是一款用于开发大语言模型（LLM）应用的开源框架，其使用提示词、记忆、链、代理等简化了大语言模型应用的开发工作。由于 LangChain 仍处于快速发展期，部分 API 还不稳定，课程中的部分代码已过时，我使用了目前最新的 v0.2 版本进行讲解，所有代码均可在 v0.2 版本下执行。另外，课程使用的 OpenAI 在国内难以访问，我替换为国内的 Kimi 大模型及开源自建的 Ollama，对于学习没有影响。

参考这篇文章来获取 Kimi 的 API 令牌。
参考这篇文章来用 Ollama 部署自己的大模型。

第一部分
第二部分
第三部分

在这里插入图片描述

课程链接

第三部分

提问和回答

生成测试数据

我们先使用任意聊天机器人来生成测试的数据，提示词如下：

请随机生成30条商品介绍数据，以逗号分隔的csv格式输出，第一行是表头，输出：no,name,description，包含以下三列：
序号
商品名称
商品的详细描述

会生成类似下面这样的内容，我们保存为 product.csv 文件。

no,name,description
1,高清智能电视,"这款高清智能电视拥有4K超高清分辨率，内置智能系统，支持语音控制，提供丰富的娱乐体验。"
2,多功能料理机,"集搅拌、打蛋、榨汁等多种功能于一身，操作简便，是厨房里的得力助手。"
3,无线蓝牙耳机,"轻巧舒适，音质清晰，支持长时间续航，适合运动和日常使用。"
4,智能扫地机器人,"自动规划清扫路线，智能避障，解放双手，保持家中清洁。"
5,便携式榨汁机,"小巧便携，操作简便，快速榨汁，适合健康生活需求。"
...

问答链

然后我们通过下面的代码，让 LLM 从我们生成的测试数据中找出和总结我们需要的数据。下面使用了 Ollama 部署的 qwen2（千问2）模型，执行前请先部署服务。

请先安装依赖 pip install docarray

from langchain_community.llms import Ollama
from langchain.chains import RetrievalQA
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.document_loaders import CSVLoader
from langchain_community.vectorstores import DocArrayInMemorySearch
from langchain.indexes import VectorstoreIndexCreator

# 服务地址
base_url = 'http://localhost:11434'
# 模型名称
llm_model = 'qwen2'
# 数据文件路径
file_path = 'product.csv'

# 创建模型
llm = Ollama(base_url=base_url, model=llm_model)
# 创建数据载入器
loader = CSVLoader(file_path=file_path)
# 创建词嵌入
embeddings = OllamaEmbeddings(base_url=base_url, model=llm_model)
# 创建向量索引
index = VectorstoreIndexCreator(
    vectorstore_cls=DocArrayInMemorySearch,
    embedding=embeddings
).from_loaders([loader])
# 提问
query = "请列出带有智能功能且节能环保的电器，以 Markdown 格式输出，总结它们的功能描述。"
response = index.query(query, llm=llm)
print(response)

可能会获得如下输出（由于生成的测试数据以及 LLM 每次回答不同，结果可能有较大差异）。

- **智能空调**：
  * 功能描述：智能温控，自动调节，节能省电，提供舒适环境。

- **空气净化器**：
  * 功能描述：高效过滤空气中的污染物，提供清新空气，适合家庭和办公室使用。

这里我们使用 LangChain 提供的问答链快速从我们自己的数据中获得了结果。这些数据是我们自己内部的数据，对于 LLM 是不具备的。

步骤分解

接下来让我们一步步分解来执行，看看上面的代码到底做了什么。

第一步是使用 CSVLoader 来载入外部数据。这些数据是不存在于 LLM 中，而是我们其他的内部数据库中，作为背景数据或内部知识库传递给 LLM。

loader = CSVLoader(file_path=file)
docs = loader.load()
print(docs[0])

可能会得到如下结果。

page_content='no: 1
name: 高清智能电视
description: 这款高清智能电视拥有4K超高清分辨率，内置智能系统，支持语音控制，提供丰富的娱乐体验。' metadata={'source': 'product.csv', 'row': 0}

这里使用了 CSVLoader，用来载入 csv 格式的数据。还有其他很多现成的 Loader，如 JSONLoader、HtmlLoader 等，也有很多其他的扩展，可以从 Office 文档、PDF、数据库、网盘中获取数据。

然后，用 Embeddings（嵌入）来处理字符串，这里我们使用 Ollama 的 embeddings 接口。我们初始化 OllamaEmbeddings 实例，调用其 embed_query 方法来创建词嵌入。

embeddings = OllamaEmbeddings(base_url=base_url, model=llm_model)
embed = embeddings.embed_query("你好，我的名字是火眼9988")
print(len(embed))
print(embed[:5])

我们可以看到词嵌入的结果是数千个数值的列表，我们可以保存这些向量数值，在后续使用。嵌入的过程就是将内容转换为向量数组。

3584
[0.46612900495529175, 3.102452516555786, -2.066977024078369, 0.17733854055404663, 1.7350211143493652]

在这里插入图片描述

嵌入的向量数组能够“保存”原先的内容或意思。
相似的文字也会获得相似的向量数组。

我们还可以使用向量数据库来保存这些向量数据。如果有一段比较长的文本，我们可以首先将它切割为数个短一点的片段，这样我们可以减少传递给 LLM 的内容大小。然后，我们对各个片段创建词嵌入，并将它们保存到向量数据库中。这就是我们创建索引的过程。

在这里插入图片描述

我们使用 from_documents 来创建向量存储。

db = DocArrayInMemorySearch.from_documents(
    docs,
    embeddings
)

然后，我们可以在运行时使用了。当新的请求进来时，先将请求进行嵌入处理，然后将向量和向量数据库中的所有数据进行比对，找出最相似的 n 条数据。我们就可以获得这些数据，并将它们添加到提示词中，提交给 LLM。

在这里插入图片描述

我们查询“智能家用电器”，让向量数据库查找最相似的数据。

query = "请选择智能家用电器"
docs = db.similarity_search(query)
print(len(docs))
print(docs[0])

会输出类似如下内容。我们看到获取了 4 条数据，第一条数据就是“智能热水器”。

4
page_content='no: 28
name: 智能热水器
description: 即开即热，智能恒温，节能环保。' metadata={'source': 'product.csv', 'row': 27}

那我们怎么使用 LLM 来查询我们自己的文档数据呢？首先，我们创建 LLM 模型，接着，将文档中的 page_content 拼接到一个字符串变量中，并将变量传递给提示词模板。最后，调用大语言模型来回答。


# 创建 Ollama LLM
llm = Ollama(base_url=base_url, model=llm_model)
# 拼接文档
qdocs = "".join([docs[i].page_content for i in range(len(docs))])
# 提问
response = llm.invoke(f"{qdocs} 问题：请找出最环保的电器？")
print(response)

可以得到类似下面的回答。

在给出的描述中，“智能热水器”因其“即开即热”和“节能环保”的特性被认为是最环保的电器。它可以在需要时快速提供热水服务，并且在设计上考虑到能源的有效利用和减少浪费，因此被评为最环保选项。

所有这些步骤都可以使用 LangChain 的链来处理。这里我们创建一条 Retrieval QA 链，我们使用下面几个参数来创建这条链。

llm：大语言模型，这里使用的是 Ollama 的 qwen2
chain_type：链类型，这里使用的是 stuff，是最简单的方式
retriever：是用来获取文档的接口，它接收查询并返回文档

# 创建 retriever
retriever = db.as_retriever()
# 创建问答链
qa_stuff = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    verbose=True
)
query = "请列出带有智能功能且节能环保的电器，以 Markdown 格式输出，总结它们的功能描述。"
response = qa_stuff.run(query)
print(response)

可得到类似下面的结果。

在这里插入图片描述

链的类型

上面我们在创建问答链的时候使用了 stuff 类型，具体这个有什么作用呢？又有其他哪些类型呢？

Stuff

stuff 非常简单，它将所有内容合并到一个提示词中发给 LLM，并获得一个回答。它非常简单和有效，但这里我们只有 4 个文档数据，如果我们要查询的文档数据非常庞大，我们就可以使用其他的类型。

在这里插入图片描述
优点：只有一次提问，LLM 可以一次获得所有的相关数据。
缺点：LLM 往往有长度限制，不适用于大批量的数据文档。

Map_reduce

Map_reduce 获取所有的文档片段，将它们和问题一起发送给 LLM，并获得回答。然后，发起另外的请求来总结之前的回答，并获得最终的回答。它可以处理任意数量的文档，并且可以并行处理所有的请求。但是，它需要发起多次请求，并且每个文档都认为是独立的，有时候可能并不会获得最佳的结果。
在这里插入图片描述