当前位置：首页 > article >正文

论文阅读《TrustRAG: An Information Assistant with Retrieval AugmentedGeneration》

article 2025/3/17 13:34:10

这篇论文介绍了一个名为TrustRAG的新型检索增强生成（Retrieval-Augmented Generation, RAG）框架，旨在提高RAG系统的可信度和可靠性。以下是对论文每个部分的分析：

背景：过去几十年中，搜索引擎通过从网络中定位相关文档成为人们获取信息的主要方式。近年来，随着大型语言模型（LLM）的快速发展，信息检索从简单地排名相关文档转变为生成可靠答案。
问题：直接使用LLM生成答案存在挑战，例如缺乏实时信息、领域知识不足以及可能出现幻觉性声明（hallucinate claims），导致在现实场景中响应不可靠。
解决方案：RAG通过结合搜索引擎和LLM的优势，利用搜索处理外部语料库以获取实时信息，并利用LLM进行推理和文本生成，从而提高结果质量。然而，现有的RAG框架主要关注准确性提升，而对结果的可信度和可靠性关注较少。
贡献：作者提出了TrustRAG框架，从索引（indexing）、检索（retrieval）和生成（generation）三个角度增强RAG系统的可信度，并开源了该框架，提供了一个基于摘录的问答任务（Excerpt-Based Question Answering, ExQA）的演示平台。

架构：TrustRAG系统由两个主要部分组成：TrustRAG库（后端）和TrustRAG工作室（前端）。
- TrustRAG库：提供从索引到检索再到生成的完整RAG流程，包含三个模块：离线索引模块、检索模块和生成模块。
- TrustRAG工作室：基于TrustRAG库构建的用户友好型GUI，包含知识管理面板和对话管理面板，用户可以上传文档、配置选项、选择检索方法和LLM，并可视化TrustRAG的中间“思考”过程。
目标：通过TrustRAG库和工作室，帮助用户创建自己的RAG应用，同时降低使用门槛。

这一部分详细介绍了TrustRAG库的核心组件和创新点，具体分为以下几个方面：

问题：传统的文本分块方法会导致语义丢失，尤其是处理长文档或复杂文档时。
解决方案：
- 使用LLM进行共指消解（Coreference Resolution），解决代词或不完整引用导致的歧义，增强文本的语义完整性。（例如，当一个代词如“it”出现在一个句子中时，系统会识别它的先行词并恢复缺失的上下文，从而增强文本的语义完整性。）
- 将相对时间引用标准化为标准日期格式，以便后续生成任务更准确地利用上下文信息。（例如，如果文档的发布日期为“2025-02-18”，则“yesterday”和“last Friday”等术语将分别转换为“2025-02-17”和“2025-02-14）
- 动态识别语义边界，使用嵌入技术和LLM自适应地分割文本，确保分块的语义连贯性。

问题：传统RAG系统仅通过向量相似度判断检索文档的相关性，但高相似度不一定意味着对生成任务有用。
解决方案：
- 实用性判断：使用LLM作为判别器，通过精心设计的提示（prompts）评估检索文档对用户查询和生成任务的相关性。
- 细粒度证据提取：从有用文档中提取最相关的句子，通过模型蒸馏技术降低计算成本，同时保持高准确性和相关性。

问题：传统方法在生成过程中嵌入引用，可能导致引用不准确且生成速度慢。
解决方案：
- 后生成引用：在生成答案后，将生成内容与检索到的参考材料匹配，确保引用准确且加速生成过程。
- 引用分组与交叉引用：将引用组织成逻辑组，并支持交叉引用，增强引用的清晰度和生成答案的可信度。

TrustRAG还提供了其他模块化功能，例如文档解析（支持多种文件格式）、文本分块、查询优化、检索排序、内容压缩和模型生成等，这些功能支持RAG流程的各个方面。

应用场景：以气候变化相关的新闻为例，展示了TrustRAG在摘录式问答任务（ExQA）中的应用。
使用步骤：
1. 构建知识库并上传相关文档。
2. 配置问答应用，选择合适的知识库、生成模型和输出格式。
3. 在生成的应用实例中执行问答任务。
输出展示：
- 系统以简洁的总结开始，提供对用户查询的高级响应。
- 将关键信息按主题分类，每个主题下直接引用来源文档的证据，并列出来源信息。
- 在右侧面板中提供系统推理过程的详细信息，展示如何解释用户查询意图和从知识库中选择相关信息。

总结：TrustRAG是一个面向风险感知信息检索场景的新型系统，用户可以使用自己的私有语料库构建RAG应用，研究库中的RAG组件，并使用定制化模块进行实验。
展示方式：
1. 使用海报展示系统框架。
2. 演示如何使用系统创建私有语料库的RAG应用。
3. 分享系统的优缺点以及未来潜在的改进方向。