当前位置：首页 > article >正文

玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）

article 2025/1/30 4:04:21

系列文章目录

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）

文章目录

系列文章目录
前言
一、LangChain 环境搭建与初始配置
- 1.1 安装依赖
- 1.2 环境变量加载
- - 1.2.1 具体步骤
  - 1.2.2 注意事项
- 1.3 初始化模型客户端
二、示例生成与评估
- 2.1 示例生成的方式
- - 2.1.1 手动编写示例
  - 2.1.2 使用LLM生成示例
  - 2.1.3 示例数据的展示
- 2.2 手动评估与调试
- - 2.2.1 启用调试模式
- 2.3 评估示例的结果
- - 2.3.1 评估结果
三、LLM辅助评估
- 3.1 LLM辅助评估的概述
- - 3.1.1 LLM辅助评估的优势
- 3.2 使用LLM进行答案评分
- - 3.2.1 评估输出示例
- 3.3 LLM辅助评估的过程
- - 3.3.1 问题分析
  - 3.3.2 答案生成
  - 3.3.3 评估标准应用
- 3.4 提高评估的准确性
- 3.5 LLM辅助评估的局限性
四、总结

前言

在近年来，LangChain作为一款强大的开源框架，逐渐成为构建基于大型语言模型（LLM）应用的首选工具。它不仅提供了简洁且灵活的API来进行模型的交互，还包括了众多功能模块，支持高效构建多种应用，如智能问答系统、自动化工作流等。LangChain的模块化设计使得开发者能够根据自己的需求灵活组合不同的功能，从而快速实现复杂的业务场景。

LangChain 的核心模块

LangChain 由以下核心模块组成，每个模块都有其特定的功能：

Model（模型）
- 提供与大语言模型交互的接口，例如 OpenAI、阿里云等的 LLM。
- 开发者可以轻松配置 API 调用和模型参数。
Prompt（提示词）
- 提供动态提示词模板管理功能，支持变量插值、Prompt 优化。
- 适用于创建灵活且高效的模型交互任务。
Chains（链条）
- 用于将多个任务步骤组合成一个链条，例如多次调用模型完成复杂的推理任务。
- 支持模块化设计，便于维护和扩展。
Memory（记忆）
- 提供上下文记忆功能，可以让模型在多轮对话中记住用户的输入和历史对话内容。
- 适合构建长时间、多轮交互的对话系统。
Output Parsers（输出解析器）
- 解析模型的返回结果，例如将文本解析为 JSON 结构，便于后续处理。
- 特别适用于信息提取、分类任务等。
Agents（代理）
- 集成多种工具（如 API、数据库、文件系统）与模型交互，使模型能够动态调用外部资源完成复杂任务。
- 适合构建更智能化的自动化工作流。

LangChain 的应用场景

LangChain 的灵活性和模块化设计使其广泛适用于以下场景：

文本生成与翻译：例如生成新闻稿、调整语气风格、翻译专业文档。
智能问答与知识库：构建基于文档、数据库的知识问答系统。
信息提取与分析：从非结构化文本中提取关键信息，例如用户评论分析、商业报告解析。
对话系统与聊天机器人：利用记忆模块支持上下文多轮对话，实现类似 ChatGPT 的应用。
自动化工作流：通过 Agents 模块集成外部工具，完成复杂的任务链，例如自动处理订单或执行 API 查询。

本文主题

本系列文章将深入探讨如何在 LangChain 中进行问答系统的评估，并重点介绍三种评估方法：

示例生成：通过手动或自动方式创建测试数据，帮助评估问答系统的表现。
手动评估：开发者通过人工验证生成的回答与预期答案的一致性，从而理解模型的表现。
LLM辅助评估：使用另一个大型语言模型对生成的答案进行自动化评分，进一步提高评估的效率和准确性。

通过对这三种评估方法的详细探讨，本文将帮助读者更好地理解如何评估和优化LangChain应用中的问答系统。

一、LangChain 环境搭建与初始配置

在开始构建 LangChain 应用之前，需要完成基础环境的搭建和配置。

1.1 安装依赖

在项目环境中安装必要的 Python 包：

pip install langchain langchain-community langchain_openai python-dotenv openai docarray langchain-huggingface

这些依赖包含了 LangChain 框架、环境变量管理工具 python-dotenv 和与 OpenAI 模型交互的接口。

1.2 环境变量加载

为了保护敏感信息（如 API Key 和 API URL），建议将这些信息存储在项目根目录下的一个名为 .env 的文件中。这样可以避免将敏感信息直接暴露在代码中，同时方便环境的统一配置。

1.2.1 具体步骤

创建 .env 文件
在项目根目录下创建一个名为 .env 的文件。注意，这个文件不需要任何扩展名。
如果使用版本控制（如 Git），记得将 .env 文件添加到 .gitignore 中，避免敏感信息被提交到代码仓库。
编写 .env 文件内容
.env 文件的内容采用键值对的形式，每行一个键值对，格式如下：

阿里云通义千问（Qwen）API 配置
ALIYUN_API_KEY=你的阿里云API密钥
ALIYUN_API_URL=你的阿里云API地址，例如：https://dashscope.aliyuncs.com/compatible-mode/v1

DeepSeek API 配置
DEEPSEEK_API_KEY=你的DeepSeek API密钥
DEEPSEEK_API_URL=你的DeepSeek API地址，例如：https://api.deepseek.com

OpenAI API 配置
OPENAI_API_KEY=你的OpenAI API密钥
OPENAI_API_URL=https://api.openai.com/v1

键名：ALIYUN_API_KEY 和 ALIYUN_API_URL 是阿里云 API 的密钥和访问地址；DEEPSEEK_API_KEY 和 DEEPSEEK_API_URL 是DeepSeek API 的密钥和地址；OPENAI_API_KEY 和 OPENAI_API_URL 是OpenAI API 的密钥和地址。
值：具体的密钥和 URL 需要根据实际情况替换为你自己的值。

在代码中加载 .env 文件
使用 python-dotenv 模块加载 .env 文件中的内容到 Python 程序中。示例如下：

   import os
   from dotenv import load_dotenv

   # 加载 .env 文件中的环境变量
   load_dotenv()

   # 获取环境变量的值
   api_key = os.getenv("ALIYUN_API_KEY")
   base_url = os.getenv("ALIYUN_API_URL")

1.2.2 注意事项

.env 文件应放在项目根目录下，与主代码文件（如 main.py）处于同一级目录。这样 load_dotenv() 可以自动找到 .env 文件。
在使用其他环境变量（如 DEEPSEEK_API_KEY 和 DEEPSEEK_API_URL）时，直接通过 os.getenv("<变量名>") 访问即可。
确保 .env 文件已正确加载。如果程序中获取不到变量值，请检查文件路径和格式是否正确。

通过这种方式，可以在保护敏感信息的同时，方便多环境配置和管理。

1.3 初始化模型客户端

使用 LangChain 提供的 ChatOpenAI，连接阿里云通义千问模型（Qwen）：

from langchain_openai import ChatOpenAI # type: ignore

llm = ChatOpenAI(
    openai_api_key=api_key,
    model_name="qwen-plus",
    base_url=base_url
)

至此，环境已经完成初始化，可以开始与模型交互。

好的，感谢您的补充！根据您的最新代码，print(data[0]) 是输出加载的原始数据的内容，而 print(new_examples[0]) 则是输出通过 LLM 自动生成的第一条示例。在这里我已经将这行代码融入到第二章的内容中，并调整了相应的解释。以下是更新后的完整第二章内容：

二、示例生成与评估

在构建问答系统时，生成高质量的测试数据是至关重要的步骤。良好的测试数据可以帮助我们有效评估问答系统的准确性和稳定性。LangChain 提供了多种生成和评估测试数据的方法。本章将重点介绍如何通过手动编写示例和通过大型语言模型（LLM）自动生成示例数据，并展示如何利用这些示例进行问答系统的评估。

2.1 示例生成的方式

2.1.1 手动编写示例

手动编写示例是最直接的一种方式，通常适用于需要确保测试场景覆盖全面的情况。在这种方式中，开发者可以手动设计问题和预期的答案，从而确保测试数据的质量和相关性。

以下是手动编写示例的代码实现：

examples = [
    {
        "query": "Do the Cozy Comfort Pullover Set have side pockets?",
        "answer": "Yes"
    },
    {
        "query": "What collection is the Ultra-Lofty 850 Stretch Down Hooded Jacket from?",
        "answer": "The DownTek collection"
    }
]

输出示例：

Query: Do the Cozy Comfort Pullover Set have side pockets?
Answer: Yes

在这个例子中，我们为“Cozy Comfort Pullover Set”和“Ultra-Lofty 850 Stretch Down Hooded Jacket”这两个产品创建了测试问题，并为它们编写了预期的答案。这种方式适用于小规模测试，尤其是在问题场景已经明确且数据量较小的情况下。

2.1.2 使用LLM生成示例

除了手动编写示例，LangChain还支持使用大型语言模型（LLM）自动生成问题和答案对。通过LangChain的QAGenerateChain，我们可以基于现有的文档数据自动生成问答示例。

以下是使用LLM生成示例的代码：

import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain.evaluation.qa import QAGenerateChain
from langchain.document_loaders import CSVLoader

# 加载 .env 文件中的环境变量
load_dotenv()

# 从环境变量中获取 API Key 和 Base URL
api_key = os.getenv("ALIYUN_API_KEY")
base_url = os.getenv("ALIYUN_API_URL")

# 加载产品数据
file = 'OutdoorClothingCatalog_1000.csv'
loader = CSVLoader(file_path=file, encoding='utf-8')
data = loader.load()

# 初始化 LLM
llm = ChatOpenAI(
    openai_api_key=api_key,
    model_name="qwen-plus",
    base_url=base_url,
)

# 初始化 QAGenerateChain
example_gen_chain = QAGenerateChain.from_llm(llm)

# 生成新示例数据
new_examples = example_gen_chain.apply_and_parse([{"doc": t} for t in data[:5]])

通过这种方式，可以自动生成问题和答案对，并基于此扩展测试集。LLM生成的示例能够有效扩展我们的测试场景，尤其适用于大规模数据的自动生成。

2.1.3 示例数据的展示

在生成了新的问答示例之后，您可以通过以下代码查看生成的部分新示例数据：

print(new_examples[0])  # 输出第一条自动生成的示例

输出示例：

{
    "query": "What materials are used in the Women's Campside Oxfords?",
    "answer": "The Women's Campside Oxfords are made from soft canvas material with a comfortable EVA innersole and a chain-tread-inspired molded rubber outsole."
}

通过这种方式，我们能够直观地检查模型生成的问答对，并确保其质量和准确性。

2.2 手动评估与调试

生成示例数据后，接下来我们需要对问答系统的表现进行评估。手动评估通常是开发者人工检查模型返回的答案，确保生成的答案与预期一致。为了帮助开发者调试，LangChain提供了调试模式，可以详细查看每一步的处理流程。

2.2.1 启用调试模式

调试模式下，LangChain会输出详细的日志信息，帮助我们跟踪模型的运行过程，包括模型调用、文档检索等信息。我们可以通过以下代码开启调试模式：

import langchain
langchain.debug = True

开启调试模式后，可以执行以下代码来运行问答链条并查看调试输出：

qa.run(examples[0]["query"])

输出示例：

[chain/start] Entering Chain run with input:
{
    "query": "Do the Cozy Comfort Pullover Set have side pockets?"
}
[chain/start] Entering Chain run with input:
{
    "question": "Do the Cozy Comfort Pullover Set have side pockets?",
    "context": "Product details and description of Cozy Comfort Pullover Set."
}
[llm/start] Entering LLM run with input: 
{
    "prompts": [
        "System: Use the following pieces of context to answer the user's question..."
    ]
}
[llm/end] Exiting LLM run with output: 
{
    "text": "Yes, the Cozy Comfort Pullover Set has side pockets."
}
[chain/end] Exiting Chain run with output:
{
    "result": "Yes, the Cozy Comfort Pullover Set has side pockets."
}

通过调试信息，开发者可以详细了解每一步的执行过程，帮助定位潜在问题或改进点。

2.3 评估示例的结果

在手动评估后，我们还可以结合自动生成的示例对模型进行综合评估。将手动示例和LLM生成的示例结合起来，可以确保模型的表现得到了全方位的验证。

以下是如何将手动和自动生成的示例进行合并并进行评估：

examples += new_examples  # 合并手动示例和LLM生成的示例
qa.run(examples[0]["query"])  # 评估合并后的示例

2.3.1 评估结果

模型运行后，我们可以查看评估结果，并检查预测的答案与真实答案的匹配度。以下是一个评估结果的示例：

{
    "query": "Do the Cozy Comfort Pullover Set have side pockets?",
    "real_answer": "Yes",
    "predicted_answer": "Yes, the Cozy Comfort Pullover Set has side pockets.",
    "predicted_grade": "CORRECT"
}

如果模型的预测答案与实际答案相符，评估结果会显示为“正确”。通过这种方式，我们可以有效评估模型的问答准确性，并据此进行优化。

三、LLM辅助评估

在实际应用中，通过手动评估和自动评估来优化问答系统的性能是一项重要工作。而使用大型语言模型（LLM）进行自动化评估，能够显著提高评估的效率与一致性。本章将探讨如何利用LLM辅助评估问答系统的答案质量，尤其是在自动评分和结果验证方面的应用。

3.1 LLM辅助评估的概述

LLM辅助评估利用自然语言处理的能力，通过另一个独立的语言模型对问答系统生成的答案进行自动评分。与传统的人工评估不同，这种方法不依赖人工逐一比对，而是通过算法实现自动化的答案评定。

3.1.1 LLM辅助评估的优势

高效性：LLM能够快速处理大量的评估任务，比人工评估速度快得多。
一致性：通过模型自动评分，避免了人工评估可能带来的主观性偏差。
可扩展性：对于大规模数据集，人工评估的负担较重，LLM评估能够轻松处理海量数据。

3.2 使用LLM进行答案评分

在实际使用中，我们可以利用LLM根据预设的标准，对生成的答案进行评分。这一过程通常包括：

问题与答案的对比：LLM通过理解问题的意图，判断答案是否合理、准确。
答案的内容完整性：检查答案是否完全涵盖了问题所涉及的要点，是否遗漏重要信息。
评分标准：根据问题和答案的匹配度，模型给出一个评分。常见的评分标准包括准确度、相关性等。

以下是使用LLM辅助评估的基本实现：

from langchain_openai import ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.evaluation.qa import QAGenerateChain

# 初始化 ChatOpenAI 客户端
llm = ChatOpenAI(
    openai_api_key=api_key,
    model_name="qwen-plus",
    base_url=base_url,
)

# 创建 QAGenerateChain 生成示例
example_gen_chain = QAGenerateChain.from_llm(llm)

# 自动生成新的问答示例
new_examples = example_gen_chain.apply_and_parse([{"doc": t} for t in data[:5]])

# 打印自动生成的第一个示例
print(new_examples[0])

# 将手动示例与自动生成的示例合并
examples += new_examples

# 使用LLM进行答案评估
result = qa.run(examples[0]["query"])
print(result)

在上述代码中，qa.run(examples[0]["query"])会使用预先加载的模型和生成的示例数据进行答案评估，并输出结果。

3.2.1 评估输出示例

假设我们有一个自动生成的示例，问题是“Do the Cozy Comfort Pullover Set have side pockets?”，对应的答案是“Yes”。LLM会基于输入的答案和背景信息，对其进行评估，输出结果如下：

{
    "query": "Do the Cozy Comfort Pullover Set have side pockets?",
    "real_answer": "Yes",
    "predicted_answer": "Yes, the Cozy Comfort Pullover Set has side pockets.",
    "predicted_grade": "CORRECT"
}

如果模型生成的答案与实际答案一致，则评分为“CORRECT”。这种评估方式非常适合大规模自动化处理，因为它不需要人工逐一检查每个答案的准确性，而是依靠模型对答案的自然语言理解进行评分。

3.3 LLM辅助评估的过程

LLM辅助评估通常包括以下几个关键步骤：

3.3.1 问题分析

首先，LLM需要分析问题的内容，理解问题的意图和上下文。这是评估过程中的第一个步骤，模型需要理解用户询问的具体信息。

{
    "query": "Do the Cozy Comfort Pullover Set have side pockets?",
    "context": ": 10\nname: Cozy Comfort Pullover Set, Stripe\ndescription: ..."
}

3.3.2 答案生成

然后，LLM会基于问题和上下文生成答案。在此过程中，LLM需要根据给定的上下文和问题，为用户生成最符合预期的回答。

3.3.3 评估标准应用

最后，LLM会根据预设的评分标准对答案进行评估。例如，如果答案完全符合预期且涵盖了所有必要信息，则评为“CORRECT”；如果答案不完整或存在偏差，则评为“INCORRECT”。

{
    "predicted_grade": "CORRECT"
}

3.4 提高评估的准确性

为了进一步提高LLM辅助评估的准确性，我们可以根据以下方法进行优化：

多模型评估：通过多个模型对同一答案进行评估，取其平均结果，从而提高评估的一致性。
自动化调整评分标准：根据历史评分数据调整评分标准，确保评估过程能够灵活应对不同类型的问题。
加入人工验证环节：对于一些边缘案例或高度复杂的问题，可以通过人工干预来核实模型的评估结果。

3.5 LLM辅助评估的局限性

虽然LLM辅助评估具有高效性和一致性，但它也有一定的局限性：

理解偏差：LLM虽然能够高效地理解文本，但对于某些复杂或模糊的问题，可能仍会产生理解偏差。
上下文问题：LLM的理解基于当前输入的上下文信息，若上下文信息不足或不完整，可能影响答案的准确性。
无法处理极端错误：LLM的评估更多依赖于答案的整体结构和内容，而对于一些明显错误或不符合实际的答案，可能难以做出精准的判断。

四、总结

本文深入探讨了在LangChain框架中，如何通过不同的评估方法来优化和验证问答系统的性能。总结如下：

示例生成：
- 介绍了手动编写和通过LLM生成示例数据的两种方式，帮助评估问答系统的准确性与稳定性。
- 使用LLM自动生成示例，不仅能够扩展测试数据集，还能有效提升大规模数据处理的效率。
手动评估：
- 强调了人工评估的重要性，开发者可以通过验证生成的答案与预期答案的一致性，确保系统的准确性。
- 调试模式的启用有助于开发者更深入地理解模型的处理过程，快速定位问题。
LLM辅助评估：
- 介绍了如何使用另一个大型语言模型对生成的答案进行自动化评分，避免了人工逐一比对的繁琐，并提高了评估的一致性和准确性。
- 提出了提高评估准确性的方法，包括多模型评估、自动化调整评分标准以及人工验证环节。