当前位置: 首页 > article >正文

LLM之论文阅读——Context Size对RAG的影响

前言

RAG 系统已经在多个行业中得到广泛应用,尤其是在企业内部文档查询等场景中。尽管 RAG 系统的应用日益广泛,关于其最佳配置的研究却相对缺乏,特别是在上下文大小、基础 LLM 选择以及检索方法等方面。

论文原文: On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems

 

实验结论

作者重点评估了不同上下文大小、检索方法以及不同LLM对RAG系统性能的影响。

注:作者不再使用带有简短答案的测试集进行评估,而是使用两个领域(生物医学与百科全书领域)具有挑战性的长篇问题作为测试,并且答案必须充分利用整个上下文(一个整体的最终答案必须包括多个甚至所有上下文片段)。

研究结果表明随着上下文片段数量的增加,系统的性能会逐步提升,但当数量达到10-15个时,性能开始趋于稳定,甚至在某些情况下会出现下降(20-30条)(可能是数量多了,带来了信息干扰)。

在保持相同的上下文片段数量情况下,Mistral和Qwen在生物医学任务中表现最好,而GPT和Llama在百科全书任务中表现出色。

实验结果表格

  • •ROUGE-L 是一种基于最长公共子序列(LCS)的评估指标,主要用于衡量生成文本与参考文本之间的相似性。它关注生成文本中与参考文本匹配的最长连续子序列,侧重于召回率(Recall),即生成文本中有多少内容与参考文本一致。

  •  BERTScore 是一种基于预训练语言模型(如 BERT)的评估指标,通过计算生成文本与参考文本在语义空间中的相似性来评估质量。它使用 BERT 模型将文本编码为向量,然后计算生成文本与参考文本之间的余弦相似度。相比 ROUGE 等基于词汇重叠的指标,BERTScore 更能捕捉语义层面的相似性,适合评估生成文本的语义准确性。

  •  Ent.% 是基于自然语言推理(Natural Language Inference, NLI)模型的评估指标,用于衡量生成文本与参考文本之间的逻辑一致性(蕴含关系)。NLI 模型会判断生成文本是否逻辑上蕴含(Entailment)参考文本的内容。

                                不同TOP K 在测试集上表现

 所有模型都呈现出相似的模式:

  • 从较低的零样本性能开始,仅使用一个上下文片段就能显著提升性能。

  • 大多数模型在所有三个评估指标上逐步且稳定地改进。


http://www.kler.cn/a/562472.html

相关文章:

  • pip太慢了怎么办 换源下载
  • 倚光科技:助力玻璃非球面的打样与小批量生产
  • 【uniapp】上传文件流图片
  • 深入理解 MySQL 事务隔离级别:从“读未提交”到“串行化”的全面解析
  • 嵌入式面试八股文·C语言高频面经(一)
  • 【leetcode】二分算法模板总结
  • 深入理解HTTP Basic认证与Java实现
  • 2 Text2SQL 智能报表方案介绍
  • 【Qt】桌面应用开发 ------ 绘图事件和绘图设备 文件操作
  • 软件安全测评报告内容和作用简析,如何获取权威安全测评报告?
  • 3DGS(三维高斯散射)与SLAM技术结合的应用
  • 使用内置命令查看笔记本电池健康状态
  • 【第三天】零基础学习量化基础代码分析-持续更新
  • Unity百游修炼(3)——Tank_Battle(双人对战)详细制作全流程
  • HTML邮件的制作以及可能遇到的问题
  • 【LeetCode20】有效的括号
  • LeetCodeHot100_0x02
  • Fisher散度:从信息几何到机器学习的隐藏利器
  • QT MD5校验文件和数据的完整性
  • 国内访问Github的四种方法(2025版)