当前位置：首页 > article >正文

LLM之论文阅读——Context Size对RAG的影响

article 2025/2/27 1:15:47

前言

RAG 系统已经在多个行业中得到广泛应用，尤其是在企业内部文档查询等场景中。尽管 RAG 系统的应用日益广泛，关于其最佳配置的研究却相对缺乏，特别是在上下文大小、基础 LLM 选择以及检索方法等方面。

论文原文: On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems

实验结论

作者重点评估了不同上下文大小、检索方法以及不同LLM对RAG系统性能的影响。

注：作者不再使用带有简短答案的测试集进行评估，而是使用两个领域（生物医学与百科全书领域）具有挑战性的长篇问题作为测试，并且答案必须充分利用整个上下文（一个整体的最终答案必须包括多个甚至所有上下文片段）。

研究结果表明随着上下文片段数量的增加，系统的性能会逐步提升，但当数量达到10-15个时，性能开始趋于稳定，甚至在某些情况下会出现下降（20-30条）（可能是数量多了，带来了信息干扰）。

在保持相同的上下文片段数量情况下，Mistral和Qwen在生物医学任务中表现最好，而GPT和Llama在百科全书任务中表现出色。

•ROUGE-L 是一种基于最长公共子序列（LCS）的评估指标，主要用于衡量生成文本与参考文本之间的相似性。它关注生成文本中与参考文本匹配的最长连续子序列，侧重于召回率（Recall），即生成文本中有多少内容与参考文本一致。
BERTScore 是一种基于预训练语言模型（如 BERT）的评估指标，通过计算生成文本与参考文本在语义空间中的相似性来评估质量。它使用 BERT 模型将文本编码为向量，然后计算生成文本与参考文本之间的余弦相似度。相比 ROUGE 等基于词汇重叠的指标，BERTScore 更能捕捉语义层面的相似性，适合评估生成文本的语义准确性。
Ent.% 是基于自然语言推理（Natural Language Inference, NLI）模型的评估指标，用于衡量生成文本与参考文本之间的逻辑一致性（蕴含关系）。NLI 模型会判断生成文本是否逻辑上蕴含（Entailment）参考文本的内容。

不同TOP K 在测试集上表现